Всем привет! Возможно, кто-то сможет подсказать: пользуюсь HelsinkiNLP для перевода текстов(соответственно, использую MarianTokenizer и MarianMTModel из библиотеки transformers)
Проблема состоит в том, что для перевода сотни текстов нужна целая минута, а у меня таких вот текстов 320к (несколько дней ждать, в общем)
Быть может, кто-то знает как это дело правильно параллелить? С пайтоновским multiprocess не вышло, хотя я пытался инициализировать модельки и внутри потоков, и вне. Замена multiprocess на аналог от PyTorch тоже не помогла.
Как вы думаете, это возможно вообще? Я бы хотел, чтобы, скажем, 16 текстов переводились одновременно. Ресурсы для этого есть) а вот как это правильно собрать — понимания нет.
Если у кого-то есть рабочий пример — дайте знать)