Всем привет , подскажите , есть соревнование на kaggle, в датасете около 450 feature около 50 из них номинальные, остальные continuous, в датасете очень много пропущенных значений. Всего 10к rows в датасете. Какие советы можете дать по препроцессингу и какие модели использовать?
Я сделал даммис для номинальных фичей , и заменил nan в continuous features на -999
Обучил две модели, random forest и xgboost . Но полученной точности мне недостаточно.
Думаю поделить train на два датасета и реализовать стеккинг