Size: a a a

R (язык программирования)

2020 November 08

PU

Philipp Upravitelev in R (язык программирования)
даже звучит стремно
источник

O

Olga in R (язык программирования)
aGricolaMZ
А что народ думает про логистическую регрессию со смешанными эффектами, которую запустили на несбалансированных данных (92% к 8%, 2000 наблюдений)...
наверное самое простое, это 2000 наблюдений это генеральная совокупность или выборка?
если первое, и данные такие и есть, никаких смещений быть не могло. то делайте что хотите.
Если выборка, то мне кажется, нужен какой-то другой метод анализа. Но это надо погуглить статьи по биостатистике или экологии может. Там у них часто данные несбалансированные и выборки.
источник

PU

Philipp Upravitelev in R (язык программирования)
Olga
наверное самое простое, это 2000 наблюдений это генеральная совокупность или выборка?
если первое, и данные такие и есть, никаких смещений быть не могло. то делайте что хотите.
Если выборка, то мне кажется, нужен какой-то другой метод анализа. Но это надо погуглить статьи по биостатистике или экологии может. Там у них часто данные несбалансированные и выборки.
да это классическая проблема датасатанистов ведь :)

@aGricolaMZ я бы тут подумал про сам дизайн - что важно, прогноз или коэффициенты в модели
источник

a

aGricolaMZ in R (язык программирования)
коэффициенты
источник

O

Olga in R (язык программирования)
вот тут пишут, что коэффициенты "летят" если данные несбалансированы сильно. Но это первое, что на глаза попалось по теме
источник

AS

Alexander Semenov in R (язык программирования)
Я тут кидал классический обзор на эту тему
источник

PU

Philipp Upravitelev in R (язык программирования)
я бы попробовал сократить выборку до 50/50, и посмотреть, что там с коэффициентами, как минимум
источник

PU

Philipp Upravitelev in R (язык программирования)
Alexander Semenov
Я тут кидал классический обзор на эту тему
проблема  в том, что это не просто про балансировать или нет при предсказании классов, а как интерпретировать коэффициенты при смешанных эффектах, и можно ли им доверять в таком дизайне
источник

PU

Philipp Upravitelev in R (язык программирования)
но если бросишь обзор еще раз, будет тоже хорошо :)
источник

AS

Alexander Semenov in R (язык программирования)
источник

AS

Alexander Semenov in R (язык программирования)
Не самая лучшая версия, но другой не нашлось.
источник

MV

Marina Varfolomeeva ... in R (язык программирования)
aGricolaMZ
А что народ думает про логистическую регрессию со смешанными эффектами, которую запустили на несбалансированных данных (92% к 8%, 2000 наблюдений)...
В каком смысле "несбалансированные"? Дискретный предиктор с двумя градациями 92% и 8%?
источник

a

aGricolaMZ in R (язык программирования)
ага
источник

MV

Marina Varfolomeeva ... in R (язык программирования)
Я бы не волновалась с учетом общего большого объема выборки.
источник

MV

Marina Varfolomeeva ... in R (язык программирования)
Olga
вот тут пишут, что коэффициенты "летят" если данные несбалансированы сильно. Но это первое, что на глаза попалось по теме
Здесь про баланс в значении отклика
источник

a

aGricolaMZ in R (язык программирования)
Marina Varfolomeeva 🐾
Я бы не волновалась с учетом общего большого объема выборки.
спасибо!
источник

MV

Marina Varfolomeeva ... in R (язык программирования)
aGricolaMZ
спасибо!
Статей не нашла, но вот есть ответ от Френка Харрелла на StackExchange https://stats.stackexchange.com/a/387721
Т.е. последствия как обычно в дисперсионке - разная точность оценки для групп с разной численностью
источник

V

Violet in R (язык программирования)
Да ничего особенного не будет. Просто мало данных для меньшего класса, больше CI.
источник

V

Violet in R (язык программирования)
аналогии можно в финансах поискать, low defaults
источник
2020 November 09

БА

Байкулов Антон... in R (язык программирования)
Rебята, подскажите, пожалуйста, как лучше наладить автоисполнение RMD в PDF?
источник