Size: a a a

2021 April 29

ИК

Иван Калининский... in Moscow Spark
и где же собственно spark? ))
источник

R

Renarde in Moscow Spark
я обычно использую petastorm чтобы spark df сконвертить в tf Dataset, а потом через Spark+Horovod задистрибьютить:
https://horovod.readthedocs.io/en/stable/spark_include.html
источник

ИК

Иван Калининский... in Moscow Spark
Оо! Мощно
источник

R

Renarde in Moscow Spark
хз кстати почему так - хорошо навел на мысль что можно отказаться от каких-то кусков
источник

NN

No Name in Moscow Spark
Конвертится лучше, чем toPandas?)
источник

R

Renarde in Moscow Spark
естественно - плюс с картинками toPandas это прям не очень хорошая идея
источник

NN

No Name in Moscow Spark
Не только с картинками)
источник

R

Renarde in Moscow Spark
ну да, в целом toPandas это способ стрельнуть в ногу
источник

NN

No Name in Moscow Spark
@sharthZ23 а мы так не пробовали вместо toPandas?
источник

R

Renarde in Moscow Spark
насчет обучения на sklearn/xgboost/any-other-typical-python-lib есть два подхода:
- вертикально нарезать - при таком подходе мы делаем groupBy.apply() и внутри apply строим модельку по заданному куску данных - я рассказывал про это на DE or DIE 3
- копировать везде и обучать параллельно от гиперпараметров - тут работает hyperopt+spark как вот тут расписаноhttps://docs.databricks.com/_static/notebooks/hyperopt-spark-mlflow.html
источник

ДМ

Даниил Московский... in Moscow Spark
Можно покопать в эту тему. Собственно, я и начинаю)
источник

ДМ

Даниил Московский... in Moscow Spark
Это что за способ через apply несколько xgboost склеить?
источник

ДМ

Даниил Московский... in Moscow Spark
Процесс выглядит как воскрешение франкештейна)
источник

R

Renarde in Moscow Spark
не не, еще проще - просто по каждому сегменту данных своя модель.
ну типичный пример - есть 10 сегментов данных с разным поведением - для каждого сегмента строим отдельную модельку, в параллель
источник

PK

Pavel Klemenkov in Moscow Spark
Бэггинг называется.
источник

ДМ

Даниил Московский... in Moscow Spark
Ааа, специфичная штука. У нас скорее задачи выглядят как табличка на 10^6 - 10^8 строк и на 10^3 - 10^4 столбцов, которую надо умудриться в xgboost/lightgbm/catboost впихнуть
источник

ДМ

Даниил Московский... in Moscow Spark
Беггинг объединен одной целью, а тут прямо ручное разделение задачи на подзадачи. Субоптимальное решение, которое сильно зависит от решаемой задачи
источник

AZ

Alexey Zinoviev in Moscow Spark
А может надо просто сделать выборку, с охраняющую свойства исходного датасет виа .sample и учиться любой малой либой?
источник

R

Renarde in Moscow Spark
классика ML говорит что для хорошей модельки N (строки) должны быть строго > M (столбцы) (ну как минимум если мы линейное что-то строим)
источник

PK

Pavel Klemenkov in Moscow Spark
Ну я думаю построением нескольких моделек дело не ограничвается.
источник