Size: a a a

2019 December 09

С

Сюткин in Moscow Spark
Юзает кто tdch?
источник

AK

Alena Korogodova in Moscow Spark
Сюткин
Юзает кто tdch?
Мож лучше в data engineers спросить?
источник

С

Сюткин in Moscow Spark
Alena Korogodova
Мож лучше в data engineers спросить?
Пожалуй стоит попробовать
источник
2019 December 10

AZ

Alexey Zinoviev in Moscow Spark
Ребята, написал про текущие проблемы с использованием Spark ML статью, может кто-то добавит свое ценное мнение или поделится способом решения одной из описанных проблем (вручную ли, проектом на Github ли) https://medium.com/@zaleslaw/weakness-of-the-apache-spark-ml-library-41e674103591
источник

PK

Pavel Klemenkov in Moscow Spark
Пункт два спорный. Во-первых, DataFrame API могет слайсить, фильтровать и селектить в стиле пандаса. Во-вторых, есть Koalas если уж совсем пандаса хочеться. В-третьих, рисовать на спарке все равно не выйдет, ибо картинка рисуется все-равно не драйвере, да и данные для этой картинки на драйвере должны быть
источник

ME

Mikhail Epikhin in Moscow Spark
А кто-то пользуется Dask?
источник

PK

Pavel Klemenkov in Moscow Spark
Пункт 3 тоже спорный, ибо когда мы говорим про статистику, подразумеваем явно не датасеты в терайбайты. Хочешь статистики - сэмплируй считай на драйвере.
источник

PK

Pavel Klemenkov in Moscow Spark
Mikhail Epikhin
А кто-то пользуется Dask?
Я постоянно тыкаю в dask-cudf
источник

PK

Pavel Klemenkov in Moscow Spark
Alexey Zinoviev
Ребята, написал про текущие проблемы с использованием Spark ML статью, может кто-то добавит свое ценное мнение или поделится способом решения одной из описанных проблем (вручную ли, проектом на Github ли) https://medium.com/@zaleslaw/weakness-of-the-apache-spark-ml-library-41e674103591
Про пятый пункт я совсем не понял. Ну и пусть каждая трансформация возвращает тебе новый объект. Вычислений-то никто не делает, пока ты action не запустишь. Да и каталист с тангстеном относительно хороши, чтобы тупо данные не гонять
источник

DG

Denis Gabaydulin in Moscow Spark
Многое из этого правда, но пока не видел/не слышал ни одного прода на ignite ml. Было бы интересно посмотреть, Сами-то основатели кажется уже забили на ml lib потому что по настоящему distributed ml нужен единицам, а те пишут свои велосипеды.
источник

PK

Pavel Klemenkov in Moscow Spark
Denis Gabaydulin
Многое из этого правда, но пока не видел/не слышал ни одного прода на ignite ml. Было бы интересно посмотреть, Сами-то основатели кажется уже забили на ml lib потому что по настоящему distributed ml нужен единицам, а те пишут свои велосипеды.
Вот тут +1. Хотя в случае DL это не совсем так
источник

SS

Semyon Sinchenko in Moscow Spark
Alexey Zinoviev
Ребята, написал про текущие проблемы с использованием Spark ML статью, может кто-то добавит свое ценное мнение или поделится способом решения одной из описанных проблем (вручную ли, проектом на Github ли) https://medium.com/@zaleslaw/weakness-of-the-apache-spark-ml-library-41e674103591
Про стэкинг не согласен - ничего не мешает делать стэкинг через свои Estimator и Model. Благо все модели сами по себе сериализуются. Там это ни разу не сложнее, чем сделать свой ClassifierMixin в scikit-learn.

Про pandas - тоже не считаю это недостатком - у панд своих проблем куча, их API переусложнен и не прозрачен (особенно с их индексами-реиндексами и тд), ещё и меняется с каждой версией. Их костыли с BlockManager тянутся с давних времён, а уж как они память едят... Ну и наконец есть pyarrow, если очень хочется связать с спарком.

Про DL - есть dl4j-spark, который работает из коробки. Инференс есть в MMLSpark на CNTK. И dl4j и cntk можно использовать как бэкэнд для Keras.

Про онлайн обучение не знаю, но в MMLSpark есть VowpalVabbit... Можно его посмотреть.

Про MLLib - ну просто RDD быстрее. Да и вообще, если быть честным, то в Spark нет такого объекта, как DataFrame - это просто RDD[Row], а DataFrame просто синтаксический сахар.

В общем многие утверждения спорные.
источник

SS

Semyon Sinchenko in Moscow Spark
А, ну про стэкинг с бустингом ещё есть XGBoost и LightGBM.
источник

DG

Denis Gabaydulin in Moscow Spark
Я никогда не смотрел, но вот не будет ли там кодогенерации в пункте 5, которая уберет создание лишних структур?
источник

AZ

Alexey Zinoviev in Moscow Spark
Denis Gabaydulin
Многое из этого правда, но пока не видел/не слышал ни одного прода на ignite ml. Было бы интересно посмотреть, Сами-то основатели кажется уже забили на ml lib потому что по настоящему distributed ml нужен единицам, а те пишут свои велосипеды.
А причём тут Ignite ML? А про прод. Ну я видел)) и дебажил.
источник

AZ

Alexey Zinoviev in Moscow Spark
Semyon Sinchenko
А, ну про стэкинг с бустингом ещё есть XGBoost и LightGBM.
Но это же не часть mllib, верно. В самом спарке их нет, верно, в статье про это, верно?
источник

AZ

Alexey Zinoviev in Moscow Spark
Спасибо за комментарии, я знал, что в этом чате будет интересная дискуссия, поэтому написал сюда. Постараюсь ответить на некоторые вопросы (на какие смогу)
источник

AZ

Alexey Zinoviev in Moscow Spark
Pavel Klemenkov
Пункт два спорный. Во-первых, DataFrame API могет слайсить, фильтровать и селектить в стиле пандаса. Во-вторых, есть Koalas если уж совсем пандаса хочеться. В-третьих, рисовать на спарке все равно не выйдет, ибо картинка рисуется все-равно не драйвере, да и данные для этой картинки на драйвере должны быть
Я пишу про 2.4.4 Вроде бы Koalas часть 3.0, да там частично это снимется для питонистов (но не для всех)
источник

SS

Semyon Sinchenko in Moscow Spark
Alexey Zinoviev
Но это же не часть mllib, верно. В самом спарке их нет, верно, в статье про это, верно?
Но ведь справедливости ради, в scikit learn тоже нет нормального градиентного бустинга... Все используют расширения.

Если мы говорим о sparkML, то корректно включал сюда все активные проекты, которые совместимы с Estimatir и Model из SparkML
источник

SS

Semyon Sinchenko in Moscow Spark
XGboost, MMLSpark, даже H2O - все может быть встроено в Pipeline SparkML
источник