torchscript, емнип. Надо будет в следующий раз еще с беты приходить и орать, чтоб добавили
Torchscript можно и из Питона юзать. И тут два момента.
1. Если перейдут на более оптимизированный формат коммуникации типа protobuf/gRPC, для которого есть оптимизированные реализации (де)сериализации и генераторы классов для почти всех языков, можно и на питоне остаться (если модель не будет требовать мощной предобработки, которую вдруг не потянет numba)
2. Работать это дело будет на CPU - так что даже C++-реализации инференса таких методов как LSTM могут легко упереться в лимиты