1) Эти быстрые табличные реализации, по типу crc/aes, основаны на извлечении отдельных байт из слова, адресной арифметики (целочисленное умножение на 4/8/16), множества лоадов (по числу байт), и XOR-ам их результатов для получения нового слова для очередного раунда...
2) SIMD операции в e2k появлялись как попытка несильно проигрывать при двоичной трансляции MMX/SSE кодов (AVX тогда ещё не было). И если обычные целочисленные операции могут быть запущенны в одном такте сразу на 6-ти АЛУ, то SIMD операции всего на 2 и иногда на 4-х АЛУ (больше всего повезло вещественным сложениям и умножениям - на них флопсы можно показывать).
Ну не было тогда много программ с MMX/SSE кодом, - разработчики решили не перегрудать аппаратуру процессора, и в итоге случилось так что один и тот же код операции на одном АЛУ, например, делает упакованный плюсик, а на другом тот же код будет запускать Упакованные сдвиг, - в результате просто так канальность операций не удавалось поднять в новых версиях процессоров...
3) Кроме поиска в новом портируемом приложении признаков использования SIMD (grep -r "_mm"), также полезно искать макросы i386, x86_64 и им подобные. Зачастую под ними интересный выбор стоит, например, делать невыровненный load или 8 отдельных байтовых чтений с кучей плюсиков и сдвигов.
4) Кстати, насчет невыровненных чтений/записей: ещё первые версии e2k их поддерживали, однако тогда считалось что это экзотика в нормальной программе. И аппаратуру сделали так, чтобы один или два лоада в широкой программе ещё более-менее быстро испонялись, а вот уже три или четыре лоада будут давать очень заметный штраф. Как это обходить в компиляторе, в общем случае, непонятно.. Поэтому это нужно индидуально в каждом случае решать.
5) SSE/AVX реализуются через отеосительно сложные структуры данных (вложенные union/struct). Ибо 128/256 битные эмулируемые регистры нужно как-то размещать в 64 (на самом деле 80-битных) регистрах процессора, а с этим ранние версии компилятора порой тупили. Ну начиная с E2Kv5 хоть регистры стали 128-битные, стало легче.