Size: a a a

2020 April 12

IK

Ilya Kozyrev in Moscow Spark
нашел воркэраунд в виде spark.python.worker.reuse = false, но такое себе.
источник

PK

Pavel Klemenkov in Moscow Spark
Ilya Kozyrev
нашел воркэраунд в виде spark.python.worker.reuse = false, но такое себе.
Ну просто у spacy конская инициализация, сколько он там памяти отжирает на подсос своих моделек? А учитывая, что питоша форкается на каждый таск, а тасков, очевидно, дофига, то да, не лучшее решение. Попробуй инициализировать spacy на драйвере и заброадкастить.
источник

PK

Pavel Klemenkov in Moscow Spark
KrivdaTheTriewe
может зум митап?
Я самоизолриуюсь в деревке. Тут с инетом траблы бывают, поэтому лучше не надо ))
источник

IK

Ilya Kozyrev in Moscow Spark
оно не броадкастится, проблемы с серелизатором.
У меня вообще специфичный конфиг - я стартую батч на одном инстансе в AWS с local[*] . 100мб данных отжирают 60гб инстанса =)) Вот пока приходится лавировать количеством партиций и включенным форком на таски.
источник

PK

Pavel Klemenkov in Moscow Spark
Ilya Kozyrev
оно не броадкастится, проблемы с серелизатором.
У меня вообще специфичный конфиг - я стартую батч на одном инстансе в AWS с local[*] . 100мб данных отжирают 60гб инстанса =)) Вот пока приходится лавировать количеством партиций и включенным форком на таски.
Ох уж этот мэшин лернинг ))
источник

IK

Ilya Kozyrev in Moscow Spark
и не говори)
источник

GP

Grigory Pomadchin in Moscow Spark
Ilya Kozyrev
оно не броадкастится, проблемы с серелизатором.
У меня вообще специфичный конфиг - я стартую батч на одном инстансе в AWS с local[*] . 100мб данных отжирают 60гб инстанса =)) Вот пока приходится лавировать количеством партиций и включенным форком на таски.
а зачем тогда надо на одном инстансе стартовать это) если один инстанс ток, может над без спарка
источник

IK

Ilya Kozyrev in Moscow Spark
Ну у меня требование потом мигрировать решение на кластер)
источник

GP

Grigory Pomadchin in Moscow Spark
понятно)
источник

IK

Ilya Kozyrev in Moscow Spark
а подкиньте около Data Science чатик кто-нибудь, где можно адресовать вопрос))
источник

SO

Simon Osipov in Moscow Spark
Ilya Kozyrev
а подкиньте около Data Science чатик кто-нибудь, где можно адресовать вопрос))
ODS?
источник

PK

Pavel Klemenkov in Moscow Spark
Ilya Kozyrev
а подкиньте около Data Science чатик кто-нибудь, где можно адресовать вопрос))
Так тут много датасатанистов, ты спрашивай, не стейсняйся )
источник

IK

Ilya Kozyrev in Moscow Spark
Ilya Kozyrev
Это одна из питонячих библиотек =) Сделал с ней pandas UDF валится с oom python worker. Явно в ней течет память на долгоживущих тасках.
Вопрос все тот же)
источник

PK

Pavel Klemenkov in Moscow Spark
Так ответили же вроде. Ежели не сериализуется, то делать нечего. Либо свою обертку писать, либо тикет разрабам ставить. Ну а OOM можно либо твоим способом решить, либо репартиционирование и spark.sql.shuffle.partitions уменьшать. Питону же похер, ему ограничения ресурс менеджера побоку
источник

PK

Pavel Klemenkov in Moscow Spark
Просто я не очень догоняю, чем тебе дата сайнс тут поможет. Только если поплясать с инициализацией spacy и не скармливать ему en-web-core или какой там у тебя словарь, а что поменьше.
источник

IK

Ilya Kozyrev in Moscow Spark
угум, это ясно. Я может надеялся на то как memory leak самого spacy побороть =)

en-web-core  он самый :D

Да проблема даже не в инициализации, а в том, что чем больше через модель текста прогоняешь тем больше она жрет памяти. То ли сохраняет что то толи ещё что. Если бы падало при инициализации, уже было бы легче, ясно куда копать.

а он работает какое то время, а когда python worker нажинает непомерно жрать - падает
источник

IK

Ilya Kozyrev in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Вот тут посоны тоже негодуют https://github.com/explosion/spaCy/issues/3618
источник

IK

Ilya Kozyrev in Moscow Spark
ага, и типа issue  closed, как то пофиксили, но нет, нифига. Пойду наверное строчить в гитхаб им. Но судя по всему они не сильно любят на спарко-темы реагировать
источник

IK

Ilya Kozyrev in Moscow Spark
источник