Size: a a a

2021 April 29

ДМ

Даниил Московский... in Moscow Spark
Так и делаем сейчас по сути
источник

R

Renarde in Moscow Spark
ну и обычно из 10^4 столбцов 10-20 имеют вообще хоть какой-то вес в модели, а все остальное просто длинный хвост с мусором / шумом
источник

PK

Pavel Klemenkov in Moscow Spark
Да большинство так и делает. Проблема только в том, что пайплайн обучения и пайплайн инференса превращается в две разные сущности. Их надо поддерживать, синкать. Можно кастомные эстиматоры для spark ml написать, но тоже поддерживать придется. А хочется ведь счастья и лениться )
источник

AZ

Alexey Zinoviev in Moscow Spark
Что то надо сделать с числом колонок, может как-то свернуть в строки, вдруг это какой-то временной ряд в строку записанный, просто 10000 колонок ниоткуда не берутся
источник

ДМ

Даниил Московский... in Moscow Spark
Ну это все про специфику уже. Бывает, что да, пары фичей хвататет для хорошего качества. Но бывает надо из всего выжимать скор по сотым долям
источник

PK

Pavel Klemenkov in Moscow Spark
Более того бустинг на таком количестве фичей - это просто шляпа
источник

R

Renarde in Moscow Spark
так обычно получается переобучение 😂
источник

ДМ

Даниил Московский... in Moscow Spark
Вот как раз хочу фреймворк выбрать и весь зоопарк внутренних поделок под него подогнать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Для этого господь дал нам карточки нвидиа, нет?
источник

ДМ

Даниил Московский... in Moscow Spark
Главное валидацию правильно настроить)
источник

AZ

Alexey Zinoviev in Moscow Spark
Господь их дал не для этого
источник

PK

Pavel Klemenkov in Moscow Spark
Ну нее, Дженсен максимум на апостола тенят, что уж тут душой кривить ))
источник

R

Renarde in Moscow Spark
вот вот, на указанных объемах как раз выглядит логичным использовать карточки с petastorm/horovod/etc
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Я смотрю в этом чате опасно шутить
источник

ПФ

Паша Финкельштейн... in Moscow Spark
С таким настроением ты бегемотика не продашь
источник

ДМ

Даниил Московский... in Moscow Spark
Сети обучать это одно, а вот бустинги просто так не пообучаешь на разных машинках без всяких протоколов/обвязок
источник

AZ

Alexey Zinoviev in Moscow Spark
Из за таких людей с жирными матрица и, которым лень сэмплировать или факторизовать, карточки стоят как корова, для игроманов тяжёлые времена
источник

R

Renarde in Moscow Spark
кстати еще веселый трюк - добавить среди колонок одну со случайным шумом и посчитать f-importance любым быстрым алгоритмом
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну я надеюсь что хоть у Паши от этого зарплата растёт
источник

AZ

Alexey Zinoviev in Moscow Spark
Вы как начнёте копать, пишите мысли по ходу, полезные моменты подняли
источник