Ну справедливости ради, именно для байтовых доступов разницы нет почти на всех микроархитектурах. Для байтов, скорее, наоборот, выгоднее паковать в один кэшлайн. А вот для всего, что больше - уже да, пересечение границы линейки кэша - это минимум перф, максимум исключение