нашел воркэраунд в виде spark.python.worker.reuse = false, но такое себе.
Ну просто у spacy конская инициализация, сколько он там памяти отжирает на подсос своих моделек? А учитывая, что питоша форкается на каждый таск, а тасков, очевидно, дофига, то да, не лучшее решение. Попробуй инициализировать spacy на драйвере и заброадкастить.