Size: a a a

R (язык программирования)

2020 August 01

J

Janzeero in R (язык программирования)
Artem
Логарифм берете, если это улучшает фит(основная причина) и как правило логарифмируются финансовые показатели, как цена квартиры, поскольку для них переход от логнормального распределения к нормальному как правило улучшает модель в том смысле, что уменьшает гетероскедастичность => правильные доверительные интервалы. Нужно только помнить, что сравнивать R^2 модели с логарифмом в левой части и модели без логарифма там неправильно.

Еще можно включать логарифмы для изменения интерпретации, если всё делается для анализа качественных результатов о влиянии факторов. Тогда речь идет о процентных изменениях переменных вместо абсолютных.

Смотреть на распределения независимых переменных и пытаться сделать их нормальными обычно не имеет смысла, поскольку, как было сказано, важно только распределение ошибок, а ваши действия его нормальность не гарантируют. Плюс если наблюдений достаточно много, то работает цпт и тогда в этом еще меньше смысла.
Где можно почитать про гетероскедастичность, overdispersion и тд? Пользовался пакетом Dharmma для валидации моих glmm, там имитируются остатки по распределению моей модели и сравниваются с эмпирическими. Хотя даже тут, возможно, я что-то не так понял. А в целом не особо понял смысол.
источник

A

Artem in R (язык программирования)
Про dharrma в первый раз слышу, с overdispersion сталкивался только в модели пуассона и это весьма специфические проблемы, с которыми я не работал

Гетераскедастичность одно из основных понятий эконометрики, поэтому о ней можно почитать в любой книге по эконометрике.
источник

AB

Alexey Burnakov in R (язык программирования)
EK479
Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?
Пункт 1) Данные НЕ требуют нормальности
источник

AB

Alexey Burnakov in R (язык программирования)
EK479
Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?
Пункт 2) Ошибки не требуют нормальности если не...
источник

AB

Alexey Burnakov in R (язык программирования)
Пункт 3) ... Если не собираетесь считать prediction interval
источник

E

EK479 in R (язык программирования)
Alexey Burnakov
Пункт 2) Ошибки не требуют нормальности если не...
Т.е 1) нужно построить модель 2)посмотреть распределение ошибок: если распределение нормальное, то модель подходит; если нет-строим другую модель.
И при этом данные на вход в модель могут быть распределены как угодно. Главное, чтобы на выходе было нормальное распределение ошибок.
Получается, что примерно такой ход мысли должен быть?
источник

AB

Alexey Burnakov in R (язык программирования)
EK479
Т.е 1) нужно построить модель 2)посмотреть распределение ошибок: если распределение нормальное, то модель подходит; если нет-строим другую модель.
И при этом данные на вход в модель могут быть распределены как угодно. Главное, чтобы на выходе было нормальное распределение ошибок.
Получается, что примерно такой ход мысли должен быть?
Не, ошибки не обязательно нормальны
источник

AB

Alexey Burnakov in R (язык программирования)
Сделайте plot(lmmodel)
источник

AB

Alexey Burnakov in R (язык программирования)
Нужно наблюдать независимость невязок и фиттед игрек
источник

AB

Alexey Burnakov in R (язык программирования)
Невязки должны быть гомогенны (одинаковая дисперсия)
источник

AB

Alexey Burnakov in R (язык программирования)
Всё
источник

AB

Alexey Burnakov in R (язык программирования)
Для более ригористичного объяснения погуглите markov gauss assumptions
источник

E

EK479 in R (язык программирования)
Alexey Burnakov
Для более ригористичного объяснения погуглите markov gauss assumptions
Спасибо)
источник

DK

Dmitry Khramov in R (язык программирования)
О, и о теореме Гаусса-Маркова вспомнили!
источник

AB

Alexey Burnakov in R (язык программирования)
Dmitry Khramov
О, и о теореме Гаусса-Маркова вспомнили!
Вещь важная ;)
источник

AB

Alexey Burnakov in R (язык программирования)
Самое первое - линейность
источник

AB

Alexey Burnakov in R (язык программирования)
Если невязки нелинейно вытягиваются, речь о добавлении каких-то non-linear terms
источник

AB

Alexey Burnakov in R (язык программирования)
Без этого не получите BLUE
источник

AB

Alexey Burnakov in R (язык программирования)
Best linear unbiased estimator
источник

AB

Alexey Burnakov in R (язык программирования)
Все остальное, нормальность, это косвенно
источник