ага. и еще, это из L1d порядка 5 тактов данные достаются, из L2 уже 12, а L3 под 40. а те сдивиги -- скорее всего тактов 10. т.е. если из L1d вылетело -- сдвиги будут быстрее. а L1d всего-то 32кб.
но кстати, если мы батчем обрабатываем большой массив можно уже делать обработку 8 байт за раз сдвигами и тут скорее всего вариант с табличным лукапом проиграет.