Добрый день, подскажите пожалуйста, есть задача нужно посчитать одну CPU интенсивную задачу с использованием python библиотеки Rdkit. При подсчете столкнулся с нехваткой мощностей одного компьютера по этому решил использовать PySpark. На данный момент все расчеты используют обычный pandas, multiprocessing pool и саму библиотеку Rdkit. На вход приходит массив строк, на выходе получается 70к числовых фич для каждой строки. Для того чтобы распаралелить это всё я так понял нужно использовать pandas_udf. Собственно вопрос: как написать UDF так, чтобы к спарк датафрему добавлять просчитанный pandas датафрейм или возможно есть другой более эффективный подход?
Заранее спасибо