Size: a a a

R (язык программирования)

2021 June 16

АР

Александр Райков... in R (язык программирования)
Во многих науках типа психологии об этом даже не мечтают обычно
источник

АР

Александр Райков... in R (язык программирования)
Да, я вспомнил о таком из книжки по ml и у меня теперь когнитивный диссонанс с книжками о статистике
источник

АР

Александр Райков... in R (язык программирования)
Потому что статистически понятно, что возможный профит много меньше возможных упущений
источник

A

Andrey in R (язык программирования)
И там не сказано, что это надо делать внутри цикла кросс-валидации или на отдельной выборке?
источник

АР

Александр Райков... in R (язык программирования)
Где именно?
источник

A

Andrey in R (язык программирования)
В книжке
источник

АР

Александр Райков... in R (язык программирования)
Какой книжке о чем? Я про разные книжки с разными советами писал
источник

A

Andrey in R (язык программирования)
Вот тут какая-то одна книжка упоминается
источник

A

Andrey in R (язык программирования)
Непонятно, какая. Может, там чего недоговаривают
источник

АР

Александр Райков... in R (язык программирования)
Тут упоминаются 2 книжки. Гвидо и Мюллер по мл писали про одномерный отбор, вспомнил
источник

A

Andrey in R (язык программирования)
Как я помню, это у них в том числе не на всем трейне делается
источник

A

Andrey in R (язык программирования)
А так, как я описал. Иначе лик и оверфит
источник

A

Andrey in R (язык программирования)
То есть методика для богатых, у кого данных хватает
источник

АР

Александр Райков... in R (язык программирования)
2) из того, что я знаю о регресиии (Табачник, к примеру) явно следует, что так делать не надо, ибо теряются эффекты супрессоров и относительно слабых, порознь незначимых, но значимых после контроля других переменных предикторрв
источник

АР

Александр Райков... in R (язык программирования)
Лика здесь вообще не усматриваю
источник

A

Andrey in R (язык программирования)
Почему? Это чистый тюнинг под метрику на трейне
источник

АР

Александр Райков... in R (язык программирования)
Оверфит возможен, но с этим надо регуляризацией бороться
источник

A

Andrey in R (язык программирования)
Если сначала отобрать признаки на всем трейне, а потом мерять качество на кросс-валидации, то вот он лик
источник

АР

Александр Райков... in R (язык программирования)
Лик - это использование данных, которые ты не будешь знать при переносе модели на новые данные. Где здесь лик?
источник

DP

Dmitry Penzar in R (язык программирования)
Берем 1000 переменных случайных. Какое-то колво из них чисто случайно разделит наши данные хорошо. Берем их и строим на них модель. На тех же данных.
источник