Size: a a a

R language and Statistical data analysis

2019 November 08

C

Cocos in R language and Statistical data analysis
Есть захват клавишь в r ?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
есть readline
источник

I

Ilya in R language and Statistical data analysis
источник

I

Ilya in R language and Statistical data analysis
на правах пятницы.
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Уже 3 или 4 пост с этой картинкой
источник

I

Ilya in R language and Statistical data analysis
понравилась очень аналогия.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
коллеги, очень наивный вопрос
допустим, у меня есть какая-то вариативная во времени метрика процесса (например, конверсия или ретеншен), есть историческое среднее значение этой метрики.
каждый день я делаю измерение, получаю значения выше или ниже среднего с вероятностью 0,5, события равновероятны.
и вот я пятый день наблюдаю, что значение метрики ниже среднего. то есть, 0.5**5, 3%. событие очень маловероятное.

верно ли утверждение, что такую ситуацию можно интерпертировать как маловероятное случайное событие. или у нас возможно изменилась генсовокупность, из которого мы делаем выборку при измерении, и подобное снижение метрики - неслучайно?
если это утверждение некорректно, то почему? как можно проверить/опровергнуть такую интерпретацию?
источник

А[

Александр [capsula] in R language and Statistical data analysis
Philipp Upravitelev
коллеги, очень наивный вопрос
допустим, у меня есть какая-то вариативная во времени метрика процесса (например, конверсия или ретеншен), есть историческое среднее значение этой метрики.
каждый день я делаю измерение, получаю значения выше или ниже среднего с вероятностью 0,5, события равновероятны.
и вот я пятый день наблюдаю, что значение метрики ниже среднего. то есть, 0.5**5, 3%. событие очень маловероятное.

верно ли утверждение, что такую ситуацию можно интерпертировать как маловероятное случайное событие. или у нас возможно изменилась генсовокупность, из которого мы делаем выборку при измерении, и подобное снижение метрики - неслучайно?
если это утверждение некорректно, то почему? как можно проверить/опровергнуть такую интерпретацию?
Имхо, формально никак. Если выискивать из мешка с двумя шарами - черным и белым - 5 черных подряд, это говорит о чем? О том, что просто так получилось или о том, что черных шаров стало больше? А их могло стать больше? А с какой вероятностью их могло стать больше?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
в том-то и дело, что надо сделать вывод - это просто случайная вариация (я тут песни слышал, что типа последующее значение в доверительном интервале предыдущего, поэтому ничего страшного), либо у нас что-то в процессе изменилось.
источник

ГД

Григорий Демин in R language and Statistical data analysis
А значимо ниже среднего или чисто так?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
незначимо
было бы значимое изменение, вопросов бы не было, думаю
источник

ГД

Григорий Демин in R language and Statistical data analysis
А динамика есть? Или, если сравнить пятое с нулевым - тоже незначимо?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
давайте возьмем терминальный случай, что нет различий. все пять измерений незначимо отличаются от какого-то исторического среднего
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
хотя нет, наверное историческое среднее не очень корректно
пусть будет нулевое, и все пять последующих ниже нулевого, но незначимо
источник

ГД

Григорий Демин in R language and Statistical data analysis
А какой у вас период наблюдений? Какова вероятность не пять нулей подряд получить, а пять нулей подряд  в этой серии? (0 меньше среднего, 1 - больше) Я бы скорее не беспокоился
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Philipp Upravitelev
коллеги, очень наивный вопрос
допустим, у меня есть какая-то вариативная во времени метрика процесса (например, конверсия или ретеншен), есть историческое среднее значение этой метрики.
каждый день я делаю измерение, получаю значения выше или ниже среднего с вероятностью 0,5, события равновероятны.
и вот я пятый день наблюдаю, что значение метрики ниже среднего. то есть, 0.5**5, 3%. событие очень маловероятное.

верно ли утверждение, что такую ситуацию можно интерпертировать как маловероятное случайное событие. или у нас возможно изменилась генсовокупность, из которого мы делаем выборку при измерении, и подобное снижение метрики - неслучайно?
если это утверждение некорректно, то почему? как можно проверить/опровергнуть такую интерпретацию?
Это верно, если выборка независима, то есть среда не зависит от вторника. Но если это какой-то процесс, то это не так, скорее всего: среда в какой-то степени зависит от вторника, поэтому считать вероятность выпадения отрицательного значения перемножая вероятности отрицательного значения для понедельника, вторника и среды неверно
источник

ГД

Григорий Демин in R language and Statistical data analysis
Я прикинул - на серии в 30 событий получить 5 и болле подряд одинаковых нулей в районе 30%
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Иван Поздняков
Это верно, если выборка независима, то есть среда не зависит от вторника. Но если это какой-то процесс, то это не так, скорее всего: среда в какой-то степени зависит от вторника, поэтому считать вероятность выпадения отрицательного значения перемножая вероятности отрицательного значения для понедельника, вторника и среды неверно
в том-то и дело, что выборка каждый раз независима. у меня каждый день новые пользователи, новый день недели, новые предлолжения в магазине, новый глобальный контекст, например, начало праздников или выход конкурентов.
то есть, мы каждый раз делаем выборку из новой совокупности. и как раз сильные изменения в метриках интерпретируем как результат изменения всех этих внешних факторов. обычно это контролируемые вещи, типа новый релиз, но иногда наоборот - надо найти, что случилось и починить.
источник

ГД

Григорий Демин in R language and Statistical data analysis
set.seed(123)
res = replicate(10000,
               any(rle(sample(0:1, 30, replace = TRUE))$lengths>=5)
               )

mean(res)/2
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Григорий Демин
Я прикинул - на серии в 30 событий получить 5 и болле подряд одинаковых нулей в районе 30%
это нормально, когда у вас процесс один и тот же в каждом испытании, типа броска монетки
а когда у вас монетка вдруг может изменить вероятности с 0,5 на 0,4/0,6, например?
источник