но это мало даст глобально, я принимаю аргумент, что 256 байт на "обычном" процессоре с высокой вероятностью ляжут в кеш и не выпадут оттуда на время бенчмарка.
то есть, когда ты пишешь "загрузить 0 в регистр" (оставим в стороне оптимизации и спец инструкции), то 0 записывается прямо в код, он не достаётся из данных
в общем, я для себя вывел когда-то правило, что обращения к рам дороже битовых операций с регистрами. насколько дороже — зависит от массы факторов, процессоры сильно оптимизировали это место, но оно остаётся проблемным
В каком-то «общем» случае -- это правда. В частном случае (задачи на любые преобразования uint8_t) быстрее будет получать результат по таблице истинности