Size: a a a

R (язык программирования)

2021 June 11

A

Alexa in R (язык программирования)
Ага, спасибо 😊
источник

NN

Nikolai Neustroev in R (язык программирования)
Установите английскую версию и познайте дзен на stackoverflow 😌
источник

A

Andrey in R (язык программирования)
Не понял, в чем проблема
источник

A

Andrey in R (язык программирования)
Правильная кросс-валидация делается не для высокого скора, а для корректной оценки скора на тесте
источник

JS

Jury Sergeev in R (язык программирования)
надо ли делать внутри CV-итерации для трейн части - еще раз разбивку на фолды, что бы применить target-mean-encoding
проблема в том что если так делаю - скор хуже получается, как на CV так и на тесте (который модель не видела)
CV - честный, через пайплайны
источник

A

Andrey in R (язык программирования)
А зачем mean target во вложенном ресемпле?
источник

JS

Jury Sergeev in R (язык программирования)
правда это только на текущей задаче, там данным немного, и число строк в трейне и тесте одинаковое, может в этом дело
источник

A

Andrey in R (язык программирования)
Для борьбы с чем его туда пихать?
источник

JS

Jury Sergeev in R (язык программирования)
ну как бы что бы не было "target leakage", но думаю так надо делать если CV а ля у начинающих - когда данные заранее подготовленные, без пайплайнов
источник

A

Andrey in R (язык программирования)
Это просто дополнительные обучаемые параметры
источник

A

Andrey in R (язык программирования)
Так можно дойти до того, чтобы при гридсерче наворачивать дополнительный уровень вложенности для каждого гиперпараметра
источник

JS

Jury Sergeev in R (язык программирования)
это понятно, вот и говорят - что обучать модель на енкоде от всего трейна - неправильно, модель переобучается, надо через фолды энкодить
источник

JS

Jury Sergeev in R (язык программирования)
да, тоже верно...
источник

A

Andrey in R (язык программирования)
Энкод же не от всего трейна, а от 4 из 5 фолдов или типа того
источник

JS

Jury Sergeev in R (язык программирования)
ну да, но когда обучаем модель на всем трейне, перед финальным предиктом - там же енкод от всего трейна... а учат - через фолды
источник

JS

Jury Sergeev in R (язык программирования)
но так скор меньше
источник

A

Andrey in R (язык программирования)
Честно говоря, не понял, как можно учить энкод через фолды. Для 5-fold получить 5 энкодингов на 4 фолдах и каждым предсказать соответствующую 1/5 тестовую часть трейна?
источник

JS

Jury Sergeev in R (язык программирования)
да
источник

A

Andrey in R (язык программирования)
Тогда скор меньше тупо из-за меньшего размера выборки для оценки параметров кодирования
источник

A

Andrey in R (язык программирования)
Оценки менее точные, а лика тут никакого не будет в любом случае
источник