насчет обучения на sklearn/xgboost/any-other-typical-python-lib есть два подхода: - вертикально нарезать - при таком подходе мы делаем groupBy.apply() и внутри apply строим модельку по заданному куску данных - я рассказывал про это на DE or DIE 3 - копировать везде и обучать параллельно от гиперпараметров - тут работает hyperopt+spark как вот тут расписаноhttps://docs.databricks.com/_static/notebooks/hyperopt-spark-mlflow.html
не не, еще проще - просто по каждому сегменту данных своя модель. ну типичный пример - есть 10 сегментов данных с разным поведением - для каждого сегмента строим отдельную модельку, в параллель
Ааа, специфичная штука. У нас скорее задачи выглядят как табличка на 10^6 - 10^8 строк и на 10^3 - 10^4 столбцов, которую надо умудриться в xgboost/lightgbm/catboost впихнуть