Телеграмм чат группы rlang

13:05пожаловаться #1

Используйте параметр функции na.rm = TRUE

13:08пожаловаться #2

Давно, и не очень успешно, ищу для себя ответ на следующий вопрос - какое распределение лучше аппроксимирует отклик, который представлен, как отношение факта чего-либо, к плану чего-либо, к примеру, это может быть KPI. Это, в свою очередь, нужно для выбора адекватной функции связи в GLM. Первое, что приходит в голову - биномиальное распределение, но особенность в том, что факт может быть больше плана и соответственно отношение может быть больше 1.

13:25пожаловаться #3

АЧ

А у вас теоретический вопрос или есть какие-то практические данные?

13:37пожаловаться #4

Это вопрос из практики, с которым время от времени приходится сталкиваться, когда заказчик приходит именно с такой зависимой переменной и вопросом с чем она связана. Вопрос, конечно решается каждый раз, по-разному, можно все свести к эффективно/неэффективно и решать задачу биномиальной регрессии, можно забить на план и искать связь только с фактом, если он счетный, то решаем пуассоновской регрессией, можно даже поколотить это отношение логарифмированием или Боксом-Коксом и использовать обычную регрессию. Но вопрос именно в эффективности подходов, мне просто правда ничего не попадается, как принято и работать в таком случае, а по теме вроде немало материалов знаю 😂

13:41пожаловаться #5

АЧ

Просто первый вопрос по этой задаче - знаменатель дроби (KPI) является фиксированным числом или меняющимся? Если фиксированное число (не случайное), то задача сводится к нахождению распределения числителя, то есть распределения факта. А вот если еще и знаменатель меняется, то нужно знать его распределение, и искомое распределение считается как частное двух случайных величин. Теоретически это делается, но там интегралы могут получаться несчитаемые. Все зависит от конкретных данных.

13:45пожаловаться #6

АЧ

И я еще не уловил - а почему вы говорите про биноминальное распределение? Это же дискретное распределение, а по вашей постановке задачи это точно непрерывное распределение, к тому же с тяжелым правым хвостом. Самый простой пример - экспоненциальное.

13:46пожаловаться #7

Я много примеров видел, когда биномиальное распределение используется в задачах прогноза доли чего-либо, но поскольку там область определения от 0 до 1, в моём случае это не совсем подходит.
Тут правда для ясности надо добавить, что я про фреймворк GLM, биномиальное распределение и логистическую функцию связи говорю

13:50пожаловаться #8

АЧ

Я понял. Но меня смущает именно постановка задачи. По мне так, вы должны просто по-другому ее формулировать. Не уходите в GLM, тут обычная регрессия должна спокойно работать.

13:53пожаловаться #9

АЧ

В крайнем случае, если распределение сумасшедшее, то можно квантильную регрессию попробовать.

13:54пожаловаться #10

То есть, вариант с тем, что лучше зависимую переменную сделать к нормальному распределению и работать с нем как есть?

13:54пожаловаться #11

АЧ

Я бы сказал, что сначала на распределение зависимой переменной (и независимых тоже) надо посмотреть. Вполне возможно, все получится вообще без каких-либо докруток. Может, потребуется и какая-то процедура нормализации

13:56пожаловаться #12

Так-то да, но в практике ни разу не встретил нормального распределения на этих данных. От чего и есть мой вопрос, всё же как эффетиквнее 😂

13:57пожаловаться #13

формально ваши остатки в таком случае не будут иметь нормальное распределение, но может это и не так важно

13:58пожаловаться #14

АЧ

Оно и не должно быть нормальным. Скорее всего - что-то типа экспоненциального. Тогда, если уж совсем формально подходить, да, нужно что-то типа квантильной регрессии. Вот что про нее писал Демешев https://bdemeshev.github.io/r_cycle/cycle_files/07_quant_reg.html

14:00пожаловаться #15

Вот это круто, спасибо! 👌

14:01пожаловаться #16

АЧ

Почему? Не факт. Если у вас есть модель y = 2x+5+ошибка, то если х распределен как-нибудь дико, то и у будет распределен так же дико. А ошибки вполне себе могут иметь нормальное распределение.

14:01пожаловаться #17

может вам попробывать различные функции связи? а распределение использовать какое-то более общее типа упоминавшегося экспоненциального

14:02пожаловаться #18

если сделать трансформацию, например logit и потом накинуть регрессию у которой нормальные остатки, то при обратном преобразовании нормальных остатков не будет ...

14:03пожаловаться #19

АЧ

Да, они точно будут ненормальными и возможны всякие забавности при прогнозировании, это точно. Ну или не делать трансформацию, а просто попробовать другие методы оценки коэффициентов - метод максимального правдоподобия, например.