Телеграмм чат группы moscowspark страница 653

16:02пожаловаться #1

я обычно использую petastorm чтобы spark df сконвертить в tf Dataset, а потом через Spark+Horovod задистрибьютить:
https://horovod.readthedocs.io/en/stable/spark_include.html

Иван Калининский... in Moscow Spark

16:03пожаловаться #2

ИК

Оо! Мощно

16:03пожаловаться #3

хз кстати почему так - хорошо навел на мысль что можно отказаться от каких-то кусков

16:03пожаловаться #4

No Name in Moscow Spark

Конвертится лучше, чем toPandas?)

16:03пожаловаться #5

естественно - плюс с картинками toPandas это прям не очень хорошая идея

16:04пожаловаться #6

No Name in Moscow Spark

Не только с картинками)

16:04пожаловаться #7

ну да, в целом toPandas это способ стрельнуть в ногу

16:05пожаловаться #8

No Name in Moscow Spark

@sharthZ23 а мы так не пробовали вместо toPandas?

16:06пожаловаться #9

насчет обучения на sklearn/xgboost/any-other-typical-python-lib есть два подхода:
- вертикально нарезать - при таком подходе мы делаем groupBy.apply() и внутри apply строим модельку по заданному куску данных - я рассказывал про это на DE or DIE 3
- копировать везде и обучать параллельно от гиперпараметров - тут работает hyperopt+spark как вот тут расписаноhttps://docs.databricks.com/_static/notebooks/hyperopt-spark-mlflow.html

16:07пожаловаться #10

ДМ

Можно покопать в эту тему. Собственно, я и начинаю)

16:07пожаловаться #11

ДМ

Это что за способ через apply несколько xgboost склеить?

16:08пожаловаться #12

ДМ

Процесс выглядит как воскрешение франкештейна)

16:09пожаловаться #13

не не, еще проще - просто по каждому сегменту данных своя модель.
ну типичный пример - есть 10 сегментов данных с разным поведением - для каждого сегмента строим отдельную модельку, в параллель

16:09пожаловаться #14

Pavel Klemenkov in Moscow Spark

Бэггинг называется.

16:10пожаловаться #15

ДМ

Ааа, специфичная штука. У нас скорее задачи выглядят как табличка на 10^6 - 10^8 строк и на 10^3 - 10^4 столбцов, которую надо умудриться в xgboost/lightgbm/catboost впихнуть

16:11пожаловаться #16

ДМ

Беггинг объединен одной целью, а тут прямо ручное разделение задачи на подзадачи. Субоптимальное решение, которое сильно зависит от решаемой задачи

16:11пожаловаться #17

Alexey Zinoviev in Moscow Spark

А может надо просто сделать выборку, с охраняющую свойства исходного датасет виа .sample и учиться любой малой либой?

16:12пожаловаться #18