Anton Alekseev
то есть если в udf и pudf используются библиотеки, которые уже были установлены на все машинки, и ничего из py-files, то ничего дополнительно подключать не нужно, и например для режима клиента, мы зря разлили py-files? И как по коду в функции становится понятно какие импорты необходимы предустановленных модулей? Например хотим сделать np.sum(x), если нампи стоит, то все исполнится, но кто импортнет модуль?
важно чтобы PYSPARK_PYTHON путь был одинаковый на всех машинах, и он везде указывал на одинаковый Python. Бывает так, что на драйвере вы смотрите на условный /opt/conda/my_lovely_env, а на worker - на /usr/bin/python