Size: a a a

2020 April 10

PK

Pavel Klemenkov in Moscow Spark
tenKe
так он этим же занимается
Ты че, пес, я датасайнтист! Вместо того, чтобы написать регулярку за 10 минут (ага-ага) я потрачу десятки часов и сотни киловат энергии на обучение модели, которая будет делать то же самое в среднем ))
источник

t

tenKe in Moscow Spark
Pavel Klemenkov
Ты че, пес, я датасайнтист! Вместо того, чтобы написать регулярку за 10 минут (ага-ага) я потрачу десятки часов и сотни киловат энергии на обучение модели, которая будет делать то же самое в среднем ))
сорян попутал
источник

GP

Grigory Pomadchin in Moscow Spark
я в целом поддерживаю, что надо надо хтмл парсить моделями а не регекспами; но давайте уже на чистоту, для обучения моделей парсеры придется писать регексповые
источник

D

Dima Kubitskiy in Moscow Spark
данные для обучения сами себя не распарсят
источник

С

Сюткин in Moscow Spark
Dima Kubitskiy
данные для обучения сами себя не распарсят
Сам себе дата режиссер
источник

С

Сюткин in Moscow Spark
И данные подготовь, и модель обучи, и горящую избу потуши
источник

D

Dima Kubitskiy in Moscow Spark
и еще бизнесу объясни, зачем им это нужно
источник

АЖ

Андрей Жуков... in Moscow Spark
Сюткин
И данные подготовь, и модель обучи, и горящую избу потуши
Не избу,  а другую часть тела
источник

AK

Alena Korogodova in Moscow Spark
Андрей Жуков
Не избу,  а другую часть тела
У Сюткина вместо неё - изба)
источник

С

Сюткин in Moscow Spark
Alena Korogodova
У Сюткина вместо неё - изба)
В мою избу для тебя ворота закрыты))
источник

AK

Alena Korogodova in Moscow Spark
источник
2020 April 12

SO

Simon Osipov in Moscow Spark
Привет!
А кто сталкивался с подобным: "ERROR CodeGenerator: failed to compile: org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 526, Column 28: Redefinition of parameter "agg_expr_81"

И после этого вылетает еще WARN WholeStageCodegenExec: Whole-stage codegen disabled for plan (id=13):.

Куда начать копать?
источник

SO

Simon Osipov in Moscow Spark
При этом джоба работает, делает задачи. Правда потом встает за 15 тасок до завершения ввиду кривых данных.
источник

Sa

Salam andra in Moscow Spark
Simon Osipov
Привет!
А кто сталкивался с подобным: "ERROR CodeGenerator: failed to compile: org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 526, Column 28: Redefinition of parameter "agg_expr_81"

И после этого вылетает еще WARN WholeStageCodegenExec: Whole-stage codegen disabled for plan (id=13):.

Куда начать копать?
Возможно никак не связано с текущей проблемой. Была у меня в коде ошибка связанная с  кодогенерацией на версии spark 2.3.0 , решилась заменой read batch на structure streaming.
источник

N

Nikolay in Moscow Spark
Simon Osipov
Привет!
А кто сталкивался с подобным: "ERROR CodeGenerator: failed to compile: org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 526, Column 28: Redefinition of parameter "agg_expr_81"

И после этого вылетает еще WARN WholeStageCodegenExec: Whole-stage codegen disabled for plan (id=13):.

Куда начать копать?
Похоже, что у тебя кодогенервция генерит код, который не может скомпилить. Отключи кодогенервция , что бы убедится в этом. Потом если можно, то подними версию Спарка.
источник

IK

Ilya Kozyrev in Moscow Spark
Привет, кто то сталкивался с использованием spacy в spark?
источник

PK

Pavel Klemenkov in Moscow Spark
Ilya Kozyrev
Привет, кто то сталкивался с использованием spacy в spark?
Давай сразу по существу. Пока нет причин, считать, что это не одна из питонячих библиотек.
источник

IK

Ilya Kozyrev in Moscow Spark
Это одна из питонячих библиотек =) Сделал с ней pandas UDF валится с oom python worker. Явно в ней течет память на долгоживущих тасках.
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Давай сразу по существу. Пока нет причин, считать, что это не одна из питонячих библиотек.
может зум митап?
источник

K

KrivdaTheTriewe in Moscow Spark
источник