Size: a a a

R (язык программирования)

2020 October 04

IS

Ivan Struzhkov in R (язык программирования)
Ксения Сайфулина
Поняла, попробую на другом примере. Есть 300 городов. Меня интересует, в каких городах есть линейная зависимость переменной А (уровня счастья людей) от переменной B (уровня освещенности). Можно ли посчитать линейную регрессию А от B для каждого города, взять все полученные p-значения, сделать поправку fdr, чтобы избежать опасности множественных сравнений, и на основе этих скорректированных p делать выводы?
а в чем смысл такого подхода?  У вас на разведочном анализе есть какая то гипотеза?
я бы для начала просто принадлежность к городу взял как предиктор и посмотрел бы что будет с моделью.  может потом как то фичей наделать

ну и по смыслу у вас же не 300 гипотез, гиптотеза одна, в данных есть просто переменная - город
источник

КС

Ксения Сайфулина... in R (язык программирования)
Ivan Struzhkov
а в чем смысл такого подхода?  У вас на разведочном анализе есть какая то гипотеза?
я бы для начала просто принадлежность к городу взял как предиктор и посмотрел бы что будет с моделью.  может потом как то фичей наделать

ну и по смыслу у вас же не 300 гипотез, гиптотеза одна, в данных есть просто переменная - город
Спасибо большое за ответ! Я опасалась вводить город как предиктор, потому что города очень разные, и я совсем не предполагаю, что зависимость А от В есть везде. Она есть, скажем, в 20 городах из 300, и я как раз хочу их вычленить. Модель с двумя факторами, насколько я понимаю, покажет, что зависимости А от В нет, раз она так редко встречается.
источник

ГД

Григорий Демин... in R (язык программирования)
Ксения Сайфулина
Спасибо большое за ответ! Я опасалась вводить город как предиктор, потому что города очень разные, и я совсем не предполагаю, что зависимость А от В есть везде. Она есть, скажем, в 20 городах из 300, и я как раз хочу их вычленить. Модель с двумя факторами, насколько я понимаю, покажет, что зависимости А от В нет, раз она так редко встречается.
А уровень освещенности в рамках города варьируется?
источник

ГД

Григорий Демин... in R (язык программирования)
Ну то есть, если вы модели по городам строите, то должен варьироваться
источник

ГД

Григорий Демин... in R (язык программирования)
Можно попробовать так:

lm(a ~ b + city:b + city)

Первый коэффициент - в целом зависимость a от b, а значимые коэффиценты во втором блоке будут показывать, что зависимость a от b может варьироваться между городами
источник

КС

Ксения Сайфулина... in R (язык программирования)
Григорий Демин
Ну то есть, если вы модели по городам строите, то должен варьироваться
Да, варьируется!
источник

КС

Ксения Сайфулина... in R (язык программирования)
Григорий Демин
Можно попробовать так:

lm(a ~ b + city:b + city)

Первый коэффициент - в целом зависимость a от b, а значимые коэффиценты во втором блоке будут показывать, что зависимость a от b может варьироваться между городами
Спасибо за совет! Кажется, это должно подойти!
источник

a

aGricolaMZ in R (язык программирования)
Ксения Сайфулина
Поняла, попробую на другом примере. Есть 300 городов. Меня интересует, в каких городах есть линейная зависимость переменной А (уровня счастья людей) от переменной B (уровня освещенности). Можно ли посчитать линейную регрессию А от B для каждого города, взять все полученные p-значения, сделать поправку fdr, чтобы избежать опасности множественных сравнений, и на основе этих скорректированных p делать выводы?
Это известная проблема, про которую можно почитать, например, в этой книжке в начале третьей части. Как уже сказали выше, нужно, чтобы Вы четко сформулировали, что Вы хотите сказать:

1) согласно нашим данным про связь переменных y и x мы можем выделить группу городов А и группу городов Б (кластеризация или empirical bayes estimation)
2) нас интересует связь переменных y и x, какая-то такая общая, игнорирующая информацию про отдельные города (mixed effects model)
источник

a

aGricolaMZ in R (язык программирования)
книжка, кстати одна из любимых, всем рекоммендую
источник

КС

Ксения Сайфулина... in R (язык программирования)
Супер, спасибо! Меня интересует именно первый пункт.
источник

AS

Alexander Semenov in R (язык программирования)
aGricolaMZ
книжка, кстати одна из любимых, всем рекоммендую
Недавно её вспоминал. Её можно использовать, как учебник?
источник

a

aGricolaMZ in R (язык программирования)
я бы считал ее полезным чтением
источник

AS

Alexander Semenov in R (язык программирования)
Просто никак не могу понять ее ЦА.
источник

ГД

Григорий Демин... in R (язык программирования)
Скорее для расширения кругозора. Читать интересно, но большинство вещей с птичьего полета
источник

MM

Mikle Mikle in R (язык программирования)
Ксения Сайфулина
Поняла, попробую на другом примере. Есть 300 городов. Меня интересует, в каких городах есть линейная зависимость переменной А (уровня счастья людей) от переменной B (уровня освещенности). Можно ли посчитать линейную регрессию А от B для каждого города, взять все полученные p-значения, сделать поправку fdr, чтобы избежать опасности множественных сравнений, и на основе этих скорректированных p делать выводы?
А почему бы multilevel не попробовать?
источник

ИП

Иван Поздняков... in R (язык программирования)
aGricolaMZ
Это известная проблема, про которую можно почитать, например, в этой книжке в начале третьей части. Как уже сказали выше, нужно, чтобы Вы четко сформулировали, что Вы хотите сказать:

1) согласно нашим данным про связь переменных y и x мы можем выделить группу городов А и группу городов Б (кластеризация или empirical bayes estimation)
2) нас интересует связь переменных y и x, какая-то такая общая, игнорирующая информацию про отдельные города (mixed effects model)
Тут же задача именно на каких электродах/городах есть эффект, а не есть ли сам эффект
источник

ИП

Иван Поздняков... in R (язык программирования)
Ксения Сайфулина
Поняла, попробую на другом примере. Есть 300 городов. Меня интересует, в каких городах есть линейная зависимость переменной А (уровня счастья людей) от переменной B (уровня освещенности). Можно ли посчитать линейную регрессию А от B для каждого города, взять все полученные p-значения, сделать поправку fdr, чтобы избежать опасности множественных сравнений, и на основе этих скорректированных p делать выводы?
Мне кажется, да, все корректно, если не пугает либеральность fdr подхода в целом
источник

КС

Ксения Сайфулина... in R (язык программирования)
Иван Поздняков
Мне кажется, да, все корректно, если не пугает либеральность fdr подхода в целом
Спасибо!
источник

MM

Mikle Mikle in R (язык программирования)
Коллеги, а у кого-нибудь есть опыт участия в соревнованиях на Kaggle на R?
Как это работает? Обучаешь модели на трейне, потом на тесте делаешь предсказания и заливаешь их на Kaggle? Или нужно саму модель залить?
источник

PU

Philipp Upravitelev in R (язык программирования)
модель - если выиграл, попросят показать
источник