On systems with 32-bit or larger words, it is possible to speed up execution of this cipher by combining the SubBytes and ShiftRows steps with the MixColumns step by transforming them into a sequence of table lookups. This requires four 256-entry 32-bit tables (together occupying 4096 bytes). A round can then be performed with 16 table lookup operations and 12 32-bit exclusive-or operations, followed by four 32-bit exclusive-or operations in the AddRoundKey step.
Первое, на питоне это считается медленно из-за GIL'a. Отключай GIL и будут считать все ядра а не только одно, еслиб немножко по языку почитал понял бы.
Второе если тебе в криптуху тебе нужны FPGA/AISC для параллельных вычислений. Иначе тебе даже на сях потребуется система из 4-8-16-32 CPU. Тут любая видюхи из 2007 когда эмо блейзер пили заткнет за пояс суперсовременный зион с 64 ядрами на борту.
Это называется не питон говно, это плохому танцору яйца мешают.