Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?
Логарифм берете, если это улучшает фит(основная причина) и как правило логарифмируются финансовые показатели, как цена квартиры, поскольку для них переход от логнормального распределения к нормальному как правило улучшает модель в том смысле, что уменьшает гетероскедастичность => правильные доверительные интервалы. Нужно только помнить, что сравнивать R^2 модели с логарифмом в левой части и модели без логарифма там неправильно.
Еще можно включать логарифмы для изменения интерпретации, если всё делается для анализа качественных результатов о влиянии факторов. Тогда речь идет о процентных изменениях переменных вместо абсолютных.
Смотреть на распределения независимых переменных и пытаться сделать их нормальными обычно не имеет смысла, поскольку, как было сказано, важно только распределение ошибок, а ваши действия его нормальность не гарантируют. Плюс если наблюдений достаточно много, то работает цпт и тогда в этом еще меньше смысла.