Телеграмм чат группы rlang

Ну скорее это смешивание разных подходов

08:00пожаловаться #1

То есть отбор переменных в машинке иногда так делают. Но нужен же тогда датасет, на котором отбираешь и тот, на котором строишь общую модель.

Если так делать, то да, может и пропустишь взаимодействие. Но хотя бы не наберешь ложные переменные

08:02пожаловаться #2

Да, но ДИ покажет диапазон возможных истинных значений, а р-значение лишь говорит о значимости отличий от 0

08:02пожаловаться #3

То есть 2 +/- 3 и 2 +/- 10 - оба коэффициента незначимы, но погрешности-то разные

08:03пожаловаться #4

АР

Дело не только и не столько во взаимодействии (при вводе нескольких предикторов сразу взаимодействие по умолчанию тоже не включено)

08:03пожаловаться #5

Да все проще, 2 раза посмотрел на данные - увеличил граничную вероятность ошибки 1 рода

08:04пожаловаться #6

АР

Дело в том, что а) n независимо влияющих на отклик предикторов взаимно расчищают друг другу путь к значимости (каждый ест свою часть дисперсии ошибки)

08:04пожаловаться #7

Ну тогда дело конкретно в том, что использовался один датасет для первого и второго шагов

08:05пожаловаться #8

АР

Б) есть такая штука как супрессия

08:05пожаловаться #9

АР

Нет примерно никакого смысла проверять на значимость по отдельности переменные, которые потом запихнёшь вместе в уравнение

08:06пожаловаться #10

АР

Если ты сам не знаешь, что важнее, запусти пошаговую регрессию. Можно с либеральным порогом включения типа 0,1

08:07пожаловаться #11

АР

А на второй выборке уже проветришь

08:07пожаловаться #12

АР

Ну так в р будет аналогично видно 0,105 и 0,876 , к примеру

08:09пожаловаться #13

Нет, р-значение не меряет расстояние между значениями

08:10пожаловаться #14

АР

Проблема будет, если человек относится к 0,05 как некоей госкдарствннной границе, за которой все одинаково плохо, а до которой все одинаково хорошо. А потом ещё и двигает ее в удобную себе сторону

08:10пожаловаться #15

АР

В смысле?

08:10пожаловаться #16

Оба коэффициента просто незначимы. Нету такой интерпретации, что один во столько-то раз точнее другого оценен

08:11пожаловаться #17

Одномерный отбор признаков.
Так делают.

Насколько это оправданно в случае именно линрегрессии не уверен, а в их ситуации тем более, ибо у них и проблемы с большим числом признаков нет - их там пара десятков.

08:12пожаловаться #18

АР

Человек с головой на плечах понимает, что а) p выше определенного порога не доказывает незначимость, а лишь косвенно свидетельствует в ее пользу, строго говоря являясь отсутствием любого результата, б) что у р в районе 0,1 гораздо меньше свидетельств в пользу незначимости, чем у р 0,8

08:14пожаловаться #19

АР

От доверительного интервала больше пользы, если результат именно что значим и при этом исследователю важна не просто значимость, но размер