Size: a a a

R (язык программирования)

2021 June 16

DP

Dmitry Penzar in R (язык программирования)
Ну скорее это смешивание разных подходов
источник

DP

Dmitry Penzar in R (язык программирования)
То есть отбор переменных в машинке иногда так делают. Но нужен же тогда датасет, на котором отбираешь и тот, на котором строишь общую модель.

Если так делать, то да, может и пропустишь взаимодействие. Но хотя бы не наберешь ложные переменные
источник

A

Andrey in R (язык программирования)
Да, но ДИ покажет диапазон возможных истинных значений, а р-значение лишь говорит о значимости отличий от 0
источник

A

Andrey in R (язык программирования)
То есть 2 +/- 3 и 2 +/- 10 - оба коэффициента незначимы, но погрешности-то разные
источник

АР

Александр Райков... in R (язык программирования)
Дело не только и не столько во взаимодействии (при вводе нескольких предикторов сразу взаимодействие по умолчанию тоже не включено)
источник

A

Andrey in R (язык программирования)
Да все проще, 2 раза посмотрел на данные - увеличил граничную вероятность ошибки 1 рода
источник

АР

Александр Райков... in R (язык программирования)
Дело в том, что а) n независимо влияющих на отклик предикторов взаимно расчищают друг другу путь к значимости (каждый ест свою часть дисперсии ошибки)
источник

DP

Dmitry Penzar in R (язык программирования)
Ну тогда дело конкретно в том, что использовался один датасет для первого и второго шагов
источник

АР

Александр Райков... in R (язык программирования)
Б) есть такая штука как супрессия
источник

АР

Александр Райков... in R (язык программирования)
Нет примерно никакого смысла проверять на значимость по отдельности переменные, которые потом запихнёшь вместе в уравнение
источник

АР

Александр Райков... in R (язык программирования)
Если ты сам не знаешь, что важнее, запусти пошаговую регрессию. Можно с либеральным порогом включения типа 0,1
источник

АР

Александр Райков... in R (язык программирования)
А на второй выборке уже проветришь
источник

АР

Александр Райков... in R (язык программирования)
Ну так в р будет аналогично видно 0,105 и 0,876 , к примеру
источник

A

Andrey in R (язык программирования)
Нет, р-значение не меряет расстояние между значениями
источник

АР

Александр Райков... in R (язык программирования)
Проблема будет, если человек относится к 0,05 как некоей госкдарствннной границе, за которой все одинаково плохо, а до которой все одинаково хорошо. А потом ещё и двигает ее в удобную себе сторону
источник

АР

Александр Райков... in R (язык программирования)
В смысле?
источник

A

Andrey in R (язык программирования)
Оба коэффициента просто незначимы. Нету такой интерпретации, что один во столько-то раз точнее другого оценен
источник

DP

Dmitry Penzar in R (язык программирования)
Одномерный отбор признаков.
Так делают.

Насколько это оправданно в случае именно линрегрессии не уверен, а в их ситуации тем более,  ибо у них и проблемы с большим числом признаков нет - их там пара десятков.
источник

АР

Александр Райков... in R (язык программирования)
Человек с головой на плечах понимает, что а) p выше определенного порога не доказывает незначимость, а лишь косвенно свидетельствует в ее пользу, строго говоря являясь отсутствием любого результата, б) что у р в районе 0,1 гораздо меньше свидетельств в пользу незначимости, чем у р 0,8
источник

АР

Александр Райков... in R (язык программирования)
От доверительного интервала больше пользы, если результат именно что значим и при этом исследователю важна не просто значимость, но размер
источник