Тестил разные длины массива?
Где-то после миллиона элементов начинает проглядываться зависимость от размера кэша - Pentium Kaby Lake (G4620) явно отстаёт от i7 Ivy Bridge (3xxx).
На 100к - наоборот, вырывается вперёд, и выполняет как цикл, так и memmove одинаково быстро, в отличие от i7