Телеграмм чат группы rlang

коллеги, очень наивный вопрос
допустим, у меня есть какая-то вариативная во времени метрика процесса (например, конверсия или ретеншен), есть историческое среднее значение этой метрики.
каждый день я делаю измерение, получаю значения выше или ниже среднего с вероятностью 0,5, события равновероятны.
и вот я пятый день наблюдаю, что значение метрики ниже среднего. то есть, 0.5**5, 3%. событие очень маловероятное.

верно ли утверждение, что такую ситуацию можно интерпертировать как маловероятное случайное событие. или у нас возможно изменилась генсовокупность, из которого мы делаем выборку при измерении, и подобное снижение метрики - неслучайно?
если это утверждение некорректно, то почему? как можно проверить/опровергнуть такую интерпретацию?

источник

18:10пожаловаться #7

А[

Александр [capsula] in R language and Statistical data analysis

Philipp Upravitelev

коллеги, очень наивный вопрос
допустим, у меня есть какая-то вариативная во времени метрика процесса (например, конверсия или ретеншен), есть историческое среднее значение этой метрики.
каждый день я делаю измерение, получаю значения выше или ниже среднего с вероятностью 0,5, события равновероятны.
и вот я пятый день наблюдаю, что значение метрики ниже среднего. то есть, 0.5**5, 3%. событие очень маловероятное.

верно ли утверждение, что такую ситуацию можно интерпертировать как маловероятное случайное событие. или у нас возможно изменилась генсовокупность, из которого мы делаем выборку при измерении, и подобное снижение метрики - неслучайно?
если это утверждение некорректно, то почему? как можно проверить/опровергнуть такую интерпретацию?

Имхо, формально никак. Если выискивать из мешка с двумя шарами - черным и белым - 5 черных подряд, это говорит о чем? О том, что просто так получилось или о том, что черных шаров стало больше? А их могло стать больше? А с какой вероятностью их могло стать больше?

источник

18:14пожаловаться #8

PU

Philipp Upravitelev in R language and Statistical data analysis

в том-то и дело, что надо сделать вывод - это просто случайная вариация (я тут песни слышал, что типа последующее значение в доверительном интервале предыдущего, поэтому ничего страшного), либо у нас что-то в процессе изменилось.

источник

18:16пожаловаться #9

ГД

Григорий Демин in R language and Statistical data analysis

А значимо ниже среднего или чисто так?

источник

18:17пожаловаться #10

PU

Philipp Upravitelev in R language and Statistical data analysis

незначимо
было бы значимое изменение, вопросов бы не было, думаю

источник

18:18пожаловаться #11

ГД

Григорий Демин in R language and Statistical data analysis

А динамика есть? Или, если сравнить пятое с нулевым - тоже незначимо?

источник

18:20пожаловаться #12

PU

Philipp Upravitelev in R language and Statistical data analysis

давайте возьмем терминальный случай, что нет различий. все пять измерений незначимо отличаются от какого-то исторического среднего

источник

18:21пожаловаться #13

PU

Philipp Upravitelev in R language and Statistical data analysis

хотя нет, наверное историческое среднее не очень корректно
пусть будет нулевое, и все пять последующих ниже нулевого, но незначимо

источник

18:22пожаловаться #14

ГД

Григорий Демин in R language and Statistical data analysis

А какой у вас период наблюдений? Какова вероятность не пять нулей подряд получить, а пять нулей подряд в этой серии? (0 меньше среднего, 1 - больше) Я бы скорее не беспокоился

источник

18:23пожаловаться #15

ИП

Иван Поздняков in R language and Statistical data analysis

Philipp Upravitelev

коллеги, очень наивный вопрос
допустим, у меня есть какая-то вариативная во времени метрика процесса (например, конверсия или ретеншен), есть историческое среднее значение этой метрики.
каждый день я делаю измерение, получаю значения выше или ниже среднего с вероятностью 0,5, события равновероятны.
и вот я пятый день наблюдаю, что значение метрики ниже среднего. то есть, 0.5**5, 3%. событие очень маловероятное.

верно ли утверждение, что такую ситуацию можно интерпертировать как маловероятное случайное событие. или у нас возможно изменилась генсовокупность, из которого мы делаем выборку при измерении, и подобное снижение метрики - неслучайно?
если это утверждение некорректно, то почему? как можно проверить/опровергнуть такую интерпретацию?

Это верно, если выборка независима, то есть среда не зависит от вторника. Но если это какой-то процесс, то это не так, скорее всего: среда в какой-то степени зависит от вторника, поэтому считать вероятность выпадения отрицательного значения перемножая вероятности отрицательного значения для понедельника, вторника и среды неверно

источник

18:24пожаловаться #16

ГД

Григорий Демин in R language and Statistical data analysis

Я прикинул - на серии в 30 событий получить 5 и болле подряд одинаковых нулей в районе 30%

источник

18:27пожаловаться #17

PU

Philipp Upravitelev in R language and Statistical data analysis

Иван Поздняков

Это верно, если выборка независима, то есть среда не зависит от вторника. Но если это какой-то процесс, то это не так, скорее всего: среда в какой-то степени зависит от вторника, поэтому считать вероятность выпадения отрицательного значения перемножая вероятности отрицательного значения для понедельника, вторника и среды неверно

в том-то и дело, что выборка каждый раз независима. у меня каждый день новые пользователи, новый день недели, новые предлолжения в магазине, новый глобальный контекст, например, начало праздников или выход конкурентов.
то есть, мы каждый раз делаем выборку из новой совокупности. и как раз сильные изменения в метриках интерпретируем как результат изменения всех этих внешних факторов. обычно это контролируемые вещи, типа новый релиз, но иногда наоборот - надо найти, что случилось и починить.

источник

18:28пожаловаться #18

ГД

Григорий Демин in R language and Statistical data analysis

set.seed(123)
res = replicate(10000,
any(rle(sample(0:1, 30, replace = TRUE))$lengths>=5)
)

mean(res)/2

источник

18:28пожаловаться #19

PU

Philipp Upravitelev in R language and Statistical data analysis

Григорий Демин

Я прикинул - на серии в 30 событий получить 5 и болле подряд одинаковых нулей в районе 30%

это нормально, когда у вас процесс один и тот же в каждом испытании, типа броска монетки
а когда у вас монетка вдруг может изменить вероятности с 0,5 на 0,4/0,6, например?

источник

18:29пожаловаться #20