Size: a a a

R (язык программирования)

2020 July 28

А

Александр in R (язык программирования)
без цикла можно обойтись почти всегда
источник

E

EK479 in R (язык программирования)
А я правильно понимаю, что boruta отбирает важные переменные. Их по ним можно построить линейную регрессию. Но как быть, например, с взаимодействиями факторов?
Например, наличие камина не значимо в определении цены, а наличие камина и бассейна вместе имеют влияние на цену. Как boruta работает в таком случае?
источник

e

este in R (язык программирования)
EK479
А я правильно понимаю, что boruta отбирает важные переменные. Их по ним можно построить линейную регрессию. Но как быть, например, с взаимодействиями факторов?
Например, наличие камина не значимо в определении цены, а наличие камина и бассейна вместе имеют влияние на цену. Как boruta работает в таком случае?
Борута плохо выбирает признаки для линейной регрессии
источник

e

este in R (язык программирования)
EK479
А я правильно понимаю, что boruta отбирает важные переменные. Их по ним можно построить линейную регрессию. Но как быть, например, с взаимодействиями факторов?
Например, наличие камина не значимо в определении цены, а наличие камина и бассейна вместе имеют влияние на цену. Как boruta работает в таком случае?
Сначала лучше настроить самому все интересные взаимодействия, а борута их уже отберёт
источник

E

EK479 in R (язык программирования)
este
Борута плохо выбирает признаки для линейной регрессии
А для логистической хорошо работает?
источник

e

este in R (язык программирования)
EK479
А для логистической хорошо работает?
Тоже плохо. Старая добрая l1-регуляризация работает лучше
источник

e

este in R (язык программирования)
Если есть желание экзотики для, линейных моделей, попробуйте Boostaroota
источник

e

este in R (язык программирования)
Тот же принцип, только строит xgboost
источник

А

Александр in R (язык программирования)
Борута считает важность фичей почти по-честному (немного не дотягивает до честного shaply value) , строя случайный лес, оэтому когда фичей много (больше сотни), она может не успеть все просчитать, тогда конечно линейка с l1 будет лучше. Но если нет надежды что данные линейные, то быстрота лассо регрессии будет вам без толку. Я бы все равно использовал боруту, просто последовательно выкидывая самые не важные фичи и запуская ее по новой на увеличивающимся наборе данных
источник

А

Александр in R (язык программирования)
ну или можно первый раз пройтись lgbm, только там нужно выбрать total cover в качестве важности, он ближе всех к shaply
источник

AS

Alexander Semenov in R (язык программирования)
Попадалась статья про то, что и shapley отнюдь не идеален как механизм отбора фичей.
источник

А

Александр in R (язык программирования)
ну он медленный, ему нужно перебрать 2^n от числа фичей комбинаций, а про качество мне сложно представить его косяки, наверно есть какие-то, хз
источник

М

Михаил in R (язык программирования)
Александр
используй shift
правильно понимаю, что условием будет тождественность переменной с лагом вперед и с лагом назад?  Там где true - делаем замену
источник

А

Александр in R (язык программирования)
Михаил
правильно понимаю, что условием будет тождественность переменной с лагом вперед и с лагом назад?  Там где true - делаем замену
да
источник

М

Михаил in R (язык программирования)
спасибо за наводку
источник

AS

Alexander Semenov in R (язык программирования)
Александр
ну он медленный, ему нужно перебрать 2^n от числа фичей комбинаций, а про качество мне сложно представить его косяки, наверно есть какие-то, хз
источник

AS

Alexander Semenov in R (язык программирования)
Никто не в курсе, куда делить видеолекции и лабы в R отсюда? https://www.openintro.org/book/stat/
источник

AS

Alexander Semenov in R (язык программирования)
У Рундель-Четинской (или как её там) вроде на Datacamp курс был по мотивам, может поэтому убрали?
источник

AB

Alexey Burnakov in R (язык программирования)
EK479
Уже спрашивала про отбор переменных для линейной регрессии и мне подсказали Boruta. Например, в данной статье речь также идет о Random Forest Method, Relative Importance и других методах http://r-statistics.co/Variable-Selection-and-Importance-With-R.html
Скажите, пожалуйста, чем они отличаются и что лучше использовать?
https://m.habr.com/ru/company/aligntechnology/blog/303750/ это моя статья, я там несколько видов выбора фичей рассмотрел
источник

AB

Alexey Burnakov in R (язык программирования)
Может, поможет
источник