Size: a a a

R language and Statistical data analysis

2019 November 08

A

Andrey in R language and Statistical data analysis
Philipp Upravitelev
давайте возьмем терминальный случай, что нет различий. все пять измерений незначимо отличаются от какого-то исторического среднего
Как отдельное измерение может (не)значимо отличаться?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
в обратную сторону, одновыборочный т-критерий, например
источник

ГД

Григорий Демин in R language and Statistical data analysis
Это же конверсия - есть какое-то кол-во пользователей в день, какое-то кол-во событий
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
конверсия сложный и детерминированный процесс, на него много факторов влияют ведь
источник

A

Andrey in R language and Statistical data analysis
Ну так не может 100500 значимо отличаться от какой-то выборки
источник

A

Andrey in R language and Statistical data analysis
Это все равно 1 число
источник

ГД

Григорий Демин in R language and Statistical data analysis
Philipp Upravitelev
конверсия сложный и детерминированный процесс, на него много факторов влияют ведь
Я Андрею про отдельные измерения отвечал)
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
а.
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Philipp Upravitelev
в том-то и дело, что выборка каждый раз независима. у меня каждый день новые пользователи, новый день недели, новые предлолжения в магазине, новый глобальный контекст, например, начало праздников или выход конкурентов.
то есть, мы каждый раз делаем выборку из новой совокупности. и как раз сильные изменения в метриках интерпретируем как результат изменения всех этих внешних факторов. обычно это контролируемые вещи, типа новый релиз, но иногда наоборот - надо найти, что случилось и починить.
А, понятно, а что означает новая совокупность? Или имеется в виду новая выборка?
источник

A

Andrey in R language and Statistical data analysis
Philipp Upravitelev
в обратную сторону, одновыборочный т-критерий, например
Это так не работает
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Andrey
Ну так не может 100500 значимо отличаться от какой-то выборки
ну а если мы знаем распределение признака, знаем, что признак, скажем имеет такое среднее в популяции, такое стандартное отклонение, что распределение нормальное. Тогда мы можем оценить вероятность выпадения отклонения нового значения от среднего, что и можно было бы интерпретировать как p-value. Почему нет?
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Я как-то просто об этом не думал раньше, но мб я где-то ошибся просто
источник

V

Violet in R language and Statistical data analysis
Я бы не думала, а покопалась в процессе
источник

A

Andrey in R language and Statistical data analysis
Иван Поздняков
ну а если мы знаем распределение признака, знаем, что признак, скажем имеет такое среднее в популяции, такое стандартное отклонение, что распределение нормальное. Тогда мы можем оценить вероятность выпадения отклонения нового значения от среднего, что и можно было бы интерпретировать как p-value. Почему нет?
Потому что это не р-значение. Нельзя сравнивать значение и оценку параметра совокупности
источник

ИП

Иван Поздняков in R language and Statistical data analysis
так почему же нельзя? Мы знаем как признак распределен. Мы получаем значениею. Считаем интеграл от значения до плюс бесконечности по функции распределения. Почему это нельзя назвать p-значением?
источник

A

Andrey in R language and Statistical data analysis
Потому что нам принципиально недоступна информация об вариации этого значения
источник

ГД

Григорий Демин in R language and Statistical data analysis
Я бы все-таки смотрел на  значения и динамику, а не на больше-меньше. Но если использовать подход с бинарным состоянием (больше, меньше), то у нас нулевая гипотеза, что вероятность отклонения от среднего в ту или иную сторону равно 0.5.  У нас пять событий, все нулевые - соответственно  binom.test(x = 0, n =5, p =0.5), близко к значимому, но незначимо
источник

A

Andrey in R language and Statistical data analysis
И мы кагбэ считаем его измеренным с абсолютной точностью, в то время как на самом деле это всего лишь точечная оценка условного ретеншена по всему человечеству в этот день
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Violet
Я бы не думала, а покопалась в процессе
это может быть дорого с точки зрения времени и ресурсов
поэтому и вопрос - пора бить тревогу и направлять аналитика на расследование, что произошло, или нет
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Григорий Демин
Я бы все-таки смотрел на  значения и динамику, а не на больше-меньше. Но если использовать подход с бинарным состоянием (больше, меньше), то у нас нулевая гипотеза, что вероятность отклонения от среднего в ту или иную сторону равно 0.5.  У нас пять событий, все нулевые - соответственно  binom.test(x = 0, n =5, p =0.5), близко к значимому, но незначимо
ну вот динамика нам говорит - пять дней подряд конверсия ниже, чем была месяц до этого
почему мы можем быть уверены, что у нас ничего не сломалось?
источник