Телеграмм чат группы moscowspark страница 319

нашел воркэраунд в виде spark.python.worker.reuse = false, но такое себе.

19:06пожаловаться #1

PK

нашел воркэраунд в виде spark.python.worker.reuse = false, но такое себе.

Ну просто у spacy конская инициализация, сколько он там памяти отжирает на подсос своих моделек? А учитывая, что питоша форкается на каждый таск, а тасков, очевидно, дофига, то да, не лучшее решение. Попробуй инициализировать spacy на драйвере и заброадкастить.

19:08пожаловаться #2

PK

KrivdaTheTriewe

может зум митап?

Я самоизолриуюсь в деревке. Тут с инетом траблы бывают, поэтому лучше не надо ))

19:08пожаловаться #3

IK

оно не броадкастится, проблемы с серелизатором.
У меня вообще специфичный конфиг - я стартую батч на одном инстансе в AWS с local[*] . 100мб данных отжирают 60гб инстанса =)) Вот пока приходится лавировать количеством партиций и включенным форком на таски.

19:10пожаловаться #4

PK

оно не броадкастится, проблемы с серелизатором.
У меня вообще специфичный конфиг - я стартую батч на одном инстансе в AWS с local[*] . 100мб данных отжирают 60гб инстанса =)) Вот пока приходится лавировать количеством партиций и включенным форком на таски.

Ох уж этот мэшин лернинг ))

19:10пожаловаться #5

IK

и не говори)

19:11пожаловаться #6

GP

Grigory Pomadchin in Moscow Spark

оно не броадкастится, проблемы с серелизатором.
У меня вообще специфичный конфиг - я стартую батч на одном инстансе в AWS с local[*] . 100мб данных отжирают 60гб инстанса =)) Вот пока приходится лавировать количеством партиций и включенным форком на таски.

а зачем тогда надо на одном инстансе стартовать это) если один инстанс ток, может над без спарка

19:11пожаловаться #7

IK

Ну у меня требование потом мигрировать решение на кластер)

19:12пожаловаться #8

GP

Grigory Pomadchin in Moscow Spark

понятно)

19:13пожаловаться #9

IK

а подкиньте около Data Science чатик кто-нибудь, где можно адресовать вопрос))

19:23пожаловаться #10

SO

Simon Osipov in Moscow Spark

а подкиньте около Data Science чатик кто-нибудь, где можно адресовать вопрос))

ODS?

19:23пожаловаться #11

PK

а подкиньте около Data Science чатик кто-нибудь, где можно адресовать вопрос))

Так тут много датасатанистов, ты спрашивай, не стейсняйся )

19:25пожаловаться #12

IK

Это одна из питонячих библиотек =) Сделал с ней pandas UDF валится с oom python worker. Явно в ней течет память на долгоживущих тасках.

Вопрос все тот же)

19:25пожаловаться #13

PK

Так ответили же вроде. Ежели не сериализуется, то делать нечего. Либо свою обертку писать, либо тикет разрабам ставить. Ну а OOM можно либо твоим способом решить, либо репартиционирование и spark.sql.shuffle.partitions уменьшать. Питону же похер, ему ограничения ресурс менеджера побоку

19:27пожаловаться #14

PK

Просто я не очень догоняю, чем тебе дата сайнс тут поможет. Только если поплясать с инициализацией spacy и не скармливать ему en-web-core или какой там у тебя словарь, а что поменьше.

19:28пожаловаться #15

IK

угум, это ясно. Я может надеялся на то как memory leak самого spacy побороть =)

en-web-core он самый :D

Да проблема даже не в инициализации, а в том, что чем больше через модель текста прогоняешь тем больше она жрет памяти. То ли сохраняет что то толи ещё что. Если бы падало при инициализации, уже было бы легче, ясно куда копать.

а он работает какое то время, а когда python worker нажинает непомерно жрать - падает

19:29пожаловаться #16

IK

19:30пожаловаться #17

PK

Memory issues for long-running parsing processes · Issue #3618 · explosion/spaCy

Вот тут посоны тоже негодуют https://github.com/explosion/spaCy/issues/3618

GitHub

How to reproduce the behaviour Hi, I'm suspecting a memory leak when using intensively nlp.pipe(), my process is growing in memory and it looks that it never garbage collect. Do you think t...

19:31пожаловаться #18

IK

ага, и типа issue closed, как то пофиксили, но нет, нифига. Пойду наверное строчить в гитхаб им. Но судя по всему они не сильно любят на спарко-темы реагировать

19:33пожаловаться #19

IK