всем доброго дня, вопрос для практикующих ML:
1) вот есть у меня "правильный" CV, это когда всякие там средние и прочие штуки - считаются строго на train-фолдах, а потом применяются на тест-фолде, через пайплайн, и вот пробую target-mean-encoding (и да, он smoothed) - реализовал, получил скор на CV и "чистом" тесте (модель этих данных не видела)
2) потом сделал такую штуку - когда весь трейн (внутри текущего сплита CV) бьется еще раз на фолды - и на них делается "правильный" target-mean-encoding (среднее таргета считаем по трейну, применяем на тестовом фолде), во внешнем CV для кодирования факторов в тестовом фолде применяем среднее по всему трейну. И вот во втором случае я получил хуже скор на CV и тесте, соразмерно. Вопрос - если у нас честный CV - а надо ли еще и трейн бить на фолды и там делать "правильный" target-mean-encoding?
самому думается, что если CV честный (все считаем без учета тестовой части) - то указанное выше делать не нужно
что думаете?