Телеграмм чат группы rlang

Я бы рекомендовал квантили/децили, они покажут разброс распределения. Или еще можно взять на вооружение логику полихорических корреляций, где допускается, что наблюдаемое дискретное распределение - это дискретизация непрерывного латентного нормального распределения N(0,1), и из кумулятивной плотности распределения вычисляются пороги этой латентной переменной, в которых произошла дискретизация.

источник

10:16пожаловаться #3

IS

Ivan Struzhkov in R (язык программирования)

Alexandr

А вот как порог определить?

Посмотрите распределение стандартных отклонений и определите пороговое значение

источник

10:25пожаловаться #4

AA

A.K. A.K. in R (язык программирования)

Nikita Karlushin

медиана. в первом случае медиана 2 (хотя среднее почти 3), во втором - 4

Медиана вряд ли удачно будет показывать рейтинг. Допустим оценка идёт 1,1,5,5,5,5,5. Выходит что медиана 5,а среднее 3.85. Оценка 5 по медиане при таких рейтингах, когда есть две единицы не совсем верно. Здесь должно быть что-то по сложнее.

источник

10:28пожаловаться #5

D

Denis in R (язык программирования)

A.K. A.K.

Медиана вряд ли удачно будет показывать рейтинг. Допустим оценка идёт 1,1,5,5,5,5,5. Выходит что медиана 5,а среднее 3.85. Оценка 5 по медиане при таких рейтингах, когда есть две единицы не совсем верно. Здесь должно быть что-то по сложнее.

Согласен, медиана - это мера центральной тенденции, а не разброса

источник

10:29пожаловаться #6

ИП

Иван Поздняков... in R (язык программирования)

Alexandr

Подскажите, какой метрикой лучше всего описать разброс в целочисленных значениях рейтинга, например от 1 до 5? Кто-то поставил рейтинг фильму 1 по какому-то параметру, другой человек 4 или 5. В итоге есть вектор рейтингов 1,1,2,5,5. Видно что люди не согласны сильно в отличие например от случая 4,4,4,5,5. Какой метрикой это лучше всего описать?

я бы использовал непараметрические статистики в данном случае, поскольку рейтинг - это, скорее, ранги, хотя уже близкие к интервальной шкале. Тем не менее, разница между 2 и 3 — это не разница между 4 и 5, и это хотелось бы учитывать. Например, межквартильный размах (IQR), но он не ухватит различия в выборках, скорее всего, везде IQR будет равен 2. Другой вариант — median absolute deviation https://en.wikipedia.org/wiki/Median_absolute_deviation
Вот это бы как раз хорошо могло подойти здесь и поймать различия позволит

Wikipedia

Median absolute deviation

robust measure of the variability of a univariate sample of quantitative data

источник

10:30пожаловаться #7

ГД

Григорий Демин... in R (язык программирования)

Alexandr

Спасибо ! А есть ещё варианты? Или релевантные ссылки почитать

Вот, например, сложный подход - http://doingbayesiandataanalysis.blogspot.com/2017/12/which-movie-is-rated-better-dont-treat.html
А народный понятный метод - взять в качестве метрики долю людей, оценивших на две максимальные оценки (Top2-boxes), а в качестве разброса Top2 - Bottom2
Но порог в любом случае определять придется.

Blogspot

Which movie is rated better? (Don't treat ordinal ratings as metric)

When deciding what movie to watch online, have you ever considered the star ratings provided by previous viewers? For example, Amazon.com ha...

источник

11:17пожаловаться #8

IS

Ivan Struzhkov in R (язык программирования)

Григорий Демин

Вот, например, сложный подход - http://doingbayesiandataanalysis.blogspot.com/2017/12/which-movie-is-rated-better-dont-treat.html
А народный понятный метод - взять в качестве метрики долю людей, оценивших на две максимальные оценки (Top2-boxes), а в качестве разброса Top2 - Bottom2
Но порог в любом случае определять придется.

Blogspot

Which movie is rated better? (Don't treat ordinal ratings as metric)

When deciding what movie to watch online, have you ever considered the star ratings provided by previous viewers? For example, Amazon.com ha...

Я кстати так и не понял в статье , почему плохо интепретировать как metirc?

Потому что распределение напоминает биномиальное ?

источник

11:27пожаловаться #9

ГД

Григорий Демин... in R (язык программирования)

У него пример, что можно быть, что по средним одно кино оценивают лучше, чем другие. А по латентным переменным оно хуже. Но, имхо, это скорее связано, что у людей, которые оценивают, в голове какая-то своя шкала, которая транслируется в оценки индивидуальным способом. И вот эту внутреннюю непрерывную шкалу мы таким способом выявляем.

источник

11:33пожаловаться #10

ИП

Иван Поздняков... in R (язык программирования)

Ivan Struzhkov

Я кстати так и не понял в статье , почему плохо интепретировать как metirc?

Потому что распределение напоминает биномиальное ?

Потому что субъективная разница между разными баллами может (сильно) не совпадать. Поэтому не очень корректно, например, сказать, что разница в два балла больше в два раза чем разница в один балл

источник

12:07пожаловаться #11

ВК

Валерий К in R (язык программирования)

Всем привет.
Использую пакет googleAnalyticsR
Авторизацию прошёл, не ругается.
При запросе данных выдаёт такую ошибку:
Error: 'hash' is not an exported object from 'namespace:rlang'
Куда копать?

источник

13:10пожаловаться #12

М

Марк in R (язык программирования)

Привет) А не подскажете, почему lubridate не хочет обрабатывать столбцы с датами из фрейма в data table формате? Как тогда быть?) Переводить сначала в tibble, приводить к дате, а потом обратно в data table? Или есть более простой способ?)

источник

16:07пожаловаться #13

ЕТ

Евгений Томилов... in R (язык программирования)

Марк

Привет) А не подскажете, почему lubridate не хочет обрабатывать столбцы с датами из фрейма в data table формате? Как тогда быть?) Переводить сначала в tibble, приводить к дате, а потом обратно в data table? Или есть более простой способ?)

Можете показать пример кода?

источник

16:08пожаловаться #14

М

Марк in R (язык программирования)

Евгений Томилов

Можете показать пример кода?