Телеграмм чат группы moscowspark страница 335

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 May 20

AA

Anton Alekseev in Moscow Spark

то есть если в udf и pudf используются библиотеки, которые уже были установлены на все машинки, и ничего из py-files, то ничего дополнительно подключать не нужно, и например для режима клиента, мы зря разлили py-files? И как по коду в функции становится понятно какие импорты необходимы предустановленных модулей? Например хотим сделать np.sum(x), если нампи стоит, то все исполнится, но кто импортнет модуль?

источник

18:14пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

Внутри pd_udf надо импортнуть

источник

18:21пожаловаться #2

ЕГ

Евгений Глотов... in Moscow Spark

Когда все либы есть на нодах в нужном питоне, это самый оптимальный вариант

источник

18:23пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Не всё можно через py-files развернуть

источник

18:23пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Можно прям из юдфки сделать пип инсталл, потом импортлибом импортнуть)

источник

18:25пожаловаться #5

AA

Anton Alekseev in Moscow Spark

Так вот, все прекрасно без импортов внутри pudf работает, импортов глобально вначале файла, как обычно, достаточно, и кластер полноценно работает, непонятно😔

источник

18:26пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Чаще всего это заканчивается no module named <...> на проде😐

источник

18:27пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Когда работник уже уволился)

источник

18:27пожаловаться #8

AA

Anton Alekseev in Moscow Spark

Оо, есть такая проблема с импортом на одном из кластеров. То есть импорт внутри udf и pudf должен вылечить это?😐 Окей, попробуем.

источник

18:29пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

И установка либ

источник

18:29пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Или pyspark virtualenv

источник

18:30пожаловаться #11

AA

Anton Alekseev in Moscow Spark

Так установка либ при деплое идет. Или вы про py-files?

источник

18:30пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Я про то, чтобы нумпай и пандас был одинаковой версии на эджноде и на датанодах

источник

18:30пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Пайэрроу, и т д

источник

18:31пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Например у меня не взлетает пока pyarrow > 0.11.1, в каждой новой версии какие-то баги, простейшие pd_udf не отбегают

источник

18:32пожаловаться #15

AA

Anton Alekseev in Moscow Spark

Евгений Глотов

Чаще всего это заканчивается no module named <...> на проде😐

Я так и не понял как это технически реализовано, книжечки не будет с такими деталями?:)

источник

18:34пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Anton Alekseev

Я так и не понял как это технически реализовано, книжечки не будет с такими деталями?:)

Кроме гитхаба по этому функционалу нет ничего, к сожалению😐

источник

18:35пожаловаться #17

AA

Anton Alekseev in Moscow Spark

Окей, буду ковырять, спасибо.

источник

18:35пожаловаться #18

R

Renarde in Moscow Spark

Anton Alekseev

то есть если в udf и pudf используются библиотеки, которые уже были установлены на все машинки, и ничего из py-files, то ничего дополнительно подключать не нужно, и например для режима клиента, мы зря разлили py-files? И как по коду в функции становится понятно какие импорты необходимы предустановленных модулей? Например хотим сделать np.sum(x), если нампи стоит, то все исполнится, но кто импортнет модуль?

важно чтобы PYSPARK_PYTHON путь был одинаковый на всех машинах, и он везде указывал на одинаковый Python. Бывает так, что на драйвере вы смотрите на условный /opt/conda/my_lovely_env, а на worker - на /usr/bin/python

источник

18:47пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

важно чтобы PYSPARK_PYTHON путь был одинаковый на всех машинах, и он везде указывал на одинаковый Python. Бывает так, что на драйвере вы смотрите на условный /opt/conda/my_lovely_env, а на worker - на /usr/bin/python

А в /usr/bin/python3 стоит питон 2

источник

18:49пожаловаться #20