Телеграмм чат группы moscowspark страница 227

12:43пожаловаться #4

PK

Пункт два спорный. Во-первых, DataFrame API могет слайсить, фильтровать и селектить в стиле пандаса. Во-вторых, есть Koalas если уж совсем пандаса хочеться. В-третьих, рисовать на спарке все равно не выйдет, ибо картинка рисуется все-равно не драйвере, да и данные для этой картинки на драйвере должны быть

12:54пожаловаться #5

ME

Mikhail Epikhin in Moscow Spark

А кто-то пользуется Dask?

12:54пожаловаться #6

PK

Пункт 3 тоже спорный, ибо когда мы говорим про статистику, подразумеваем явно не датасеты в терайбайты. Хочешь статистики - сэмплируй считай на драйвере.

12:55пожаловаться #7

PK

Mikhail Epikhin

А кто-то пользуется Dask?

Я постоянно тыкаю в dask-cudf

12:55пожаловаться #8

PK

Weakness of the Apache Spark ML library

Alexey Zinoviev

Ребята, написал про текущие проблемы с использованием Spark ML статью, может кто-то добавит свое ценное мнение или поделится способом решения одной из описанных проблем (вручную ли, проектом на Github ли) https://medium.com/@zaleslaw/weakness-of-the-apache-spark-ml-library-41e674103591

Medium

Like everything in the world, the Spark Distributed ML library widely known as MLlib is not perfect and working with it every day you come…

Про пятый пункт я совсем не понял. Ну и пусть каждая трансформация возвращает тебе новый объект. Вычислений-то никто не делает, пока ты action не запустишь. Да и каталист с тангстеном относительно хороши, чтобы тупо данные не гонять

12:58пожаловаться #9

DG

Denis Gabaydulin in Moscow Spark

Многое из этого правда, но пока не видел/не слышал ни одного прода на ignite ml. Было бы интересно посмотреть, Сами-то основатели кажется уже забили на ml lib потому что по настоящему distributed ml нужен единицам, а те пишут свои велосипеды.

13:06пожаловаться #10

PK

Denis Gabaydulin

Многое из этого правда, но пока не видел/не слышал ни одного прода на ignite ml. Было бы интересно посмотреть, Сами-то основатели кажется уже забили на ml lib потому что по настоящему distributed ml нужен единицам, а те пишут свои велосипеды.

Вот тут +1. Хотя в случае DL это не совсем так

13:11пожаловаться #11

SS

Weakness of the Apache Spark ML library

Alexey Zinoviev

Ребята, написал про текущие проблемы с использованием Spark ML статью, может кто-то добавит свое ценное мнение или поделится способом решения одной из описанных проблем (вручную ли, проектом на Github ли) https://medium.com/@zaleslaw/weakness-of-the-apache-spark-ml-library-41e674103591

Medium

Like everything in the world, the Spark Distributed ML library widely known as MLlib is not perfect and working with it every day you come…

Про стэкинг не согласен - ничего не мешает делать стэкинг через свои Estimator и Model. Благо все модели сами по себе сериализуются. Там это ни разу не сложнее, чем сделать свой ClassifierMixin в scikit-learn.

Про pandas - тоже не считаю это недостатком - у панд своих проблем куча, их API переусложнен и не прозрачен (особенно с их индексами-реиндексами и тд), ещё и меняется с каждой версией. Их костыли с BlockManager тянутся с давних времён, а уж как они память едят... Ну и наконец есть pyarrow, если очень хочется связать с спарком.

Про DL - есть dl4j-spark, который работает из коробки. Инференс есть в MMLSpark на CNTK. И dl4j и cntk можно использовать как бэкэнд для Keras.

Про онлайн обучение не знаю, но в MMLSpark есть VowpalVabbit... Можно его посмотреть.

Про MLLib - ну просто RDD быстрее. Да и вообще, если быть честным, то в Spark нет такого объекта, как DataFrame - это просто RDD[Row], а DataFrame просто синтаксический сахар.

В общем многие утверждения спорные.

13:46пожаловаться #12

SS

А, ну про стэкинг с бустингом ещё есть XGBoost и LightGBM.

13:48пожаловаться #13

DG

Denis Gabaydulin in Moscow Spark

Я никогда не смотрел, но вот не будет ли там кодогенерации в пункте 5, которая уберет создание лишних структур?

13:50пожаловаться #14

AZ

Denis Gabaydulin

Многое из этого правда, но пока не видел/не слышал ни одного прода на ignite ml. Было бы интересно посмотреть, Сами-то основатели кажется уже забили на ml lib потому что по настоящему distributed ml нужен единицам, а те пишут свои велосипеды.

А причём тут Ignite ML? А про прод. Ну я видел)) и дебажил.

13:51пожаловаться #15

AZ

Semyon Sinchenko

А, ну про стэкинг с бустингом ещё есть XGBoost и LightGBM.

Но это же не часть mllib, верно. В самом спарке их нет, верно, в статье про это, верно?

13:52пожаловаться #16

AZ

Спасибо за комментарии, я знал, что в этом чате будет интересная дискуссия, поэтому написал сюда. Постараюсь ответить на некоторые вопросы (на какие смогу)

13:53пожаловаться #17

AZ

Pavel Klemenkov

Пункт два спорный. Во-первых, DataFrame API могет слайсить, фильтровать и селектить в стиле пандаса. Во-вторых, есть Koalas если уж совсем пандаса хочеться. В-третьих, рисовать на спарке все равно не выйдет, ибо картинка рисуется все-равно не драйвере, да и данные для этой картинки на драйвере должны быть

Я пишу про 2.4.4 Вроде бы Koalas часть 3.0, да там частично это снимется для питонистов (но не для всех)

13:53пожаловаться #18

SS

Alexey Zinoviev

Но это же не часть mllib, верно. В самом спарке их нет, верно, в статье про это, верно?

Но ведь справедливости ради, в scikit learn тоже нет нормального градиентного бустинга... Все используют расширения.

Если мы говорим о sparkML, то корректно включал сюда все активные проекты, которые совместимы с Estimatir и Model из SparkML

13:54пожаловаться #19

SS

XGboost, MMLSpark, даже H2O - все может быть встроено в Pipeline SparkML