Size: a a a

R (язык программирования)

2021 March 02

А

Анатолий in R (язык программирования)
Alexandr
Спасибо ! А есть ещё варианты? Или релевантные ссылки почитать
Рейтинг- это же порядковые данные? Вот, попадалось мне случайно. Посмотрите,  может что-то подскажет.
https://youtu.be/1-ADJNE1WNc&t=35m20s
источник

A

Alexandr in R (язык программирования)
Спасибо
источник

D

Denis in R (язык программирования)
Alexandr
А вот как порог определить?
Я бы рекомендовал квантили/децили, они покажут разброс распределения. Или еще можно взять на вооружение логику полихорических корреляций, где допускается, что наблюдаемое дискретное распределение - это дискретизация непрерывного латентного нормального распределения N(0,1), и из кумулятивной плотности распределения вычисляются пороги этой латентной переменной, в которых произошла дискретизация.
источник

IS

Ivan Struzhkov in R (язык программирования)
Alexandr
А вот как порог определить?
Посмотрите распределение стандартных отклонений и определите пороговое значение
источник

AA

A.K. A.K. in R (язык программирования)
Nikita Karlushin
медиана. в первом случае медиана 2 (хотя среднее почти 3), во втором - 4
Медиана вряд ли удачно будет показывать рейтинг. Допустим оценка идёт 1,1,5,5,5,5,5. Выходит что медиана 5,а среднее 3.85. Оценка 5 по медиане при таких рейтингах, когда есть две единицы не совсем верно. Здесь должно быть что-то по сложнее.
источник

D

Denis in R (язык программирования)
A.K. A.K.
Медиана вряд ли удачно будет показывать рейтинг. Допустим оценка идёт 1,1,5,5,5,5,5. Выходит что медиана 5,а среднее 3.85. Оценка 5 по медиане при таких рейтингах, когда есть две единицы не совсем верно. Здесь должно быть что-то по сложнее.
Согласен, медиана - это мера центральной тенденции, а не разброса
источник

ИП

Иван Поздняков... in R (язык программирования)
Alexandr
Подскажите, какой метрикой лучше всего описать разброс в целочисленных значениях рейтинга, например от 1 до 5?  Кто-то поставил рейтинг фильму 1 по какому-то параметру, другой человек 4 или 5. В итоге есть вектор рейтингов 1,1,2,5,5.  Видно что люди не согласны сильно в отличие например от случая 4,4,4,5,5. Какой метрикой это лучше всего описать?
я бы использовал непараметрические статистики в данном случае, поскольку рейтинг - это, скорее, ранги, хотя уже близкие к интервальной шкале. Тем не менее, разница между 2 и 3 — это не разница между 4 и 5, и это хотелось бы учитывать. Например, межквартильный размах (IQR), но он не ухватит различия в выборках, скорее всего, везде IQR будет равен 2. Другой вариант — median absolute deviation https://en.wikipedia.org/wiki/Median_absolute_deviation
Вот это бы как раз хорошо могло подойти здесь и поймать различия позволит
источник

ГД

Григорий Демин... in R (язык программирования)
Alexandr
Спасибо ! А есть ещё варианты? Или релевантные ссылки почитать
Вот, например, сложный подход - http://doingbayesiandataanalysis.blogspot.com/2017/12/which-movie-is-rated-better-dont-treat.html
А народный понятный метод - взять в качестве метрики долю людей, оценивших на две максимальные оценки (Top2-boxes), а в качестве разброса Top2 - Bottom2
Но порог в любом случае определять придется.
источник

IS

Ivan Struzhkov in R (язык программирования)
Григорий Демин
Вот, например, сложный подход - http://doingbayesiandataanalysis.blogspot.com/2017/12/which-movie-is-rated-better-dont-treat.html
А народный понятный метод - взять в качестве метрики долю людей, оценивших на две максимальные оценки (Top2-boxes), а в качестве разброса Top2 - Bottom2
Но порог в любом случае определять придется.
Я кстати так и не понял в статье , почему плохо интепретировать как metirc?

Потому что распределение напоминает биномиальное ?
источник

ГД

Григорий Демин... in R (язык программирования)
У него пример, что можно быть, что по средним одно кино оценивают лучше, чем другие. А по латентным переменным оно хуже. Но, имхо, это скорее связано, что у людей, которые оценивают, в голове какая-то своя шкала, которая транслируется в оценки индивидуальным способом. И вот эту внутреннюю непрерывную шкалу мы таким способом выявляем.
источник

ИП

Иван Поздняков... in R (язык программирования)
Ivan Struzhkov
Я кстати так и не понял в статье , почему плохо интепретировать как metirc?

Потому что распределение напоминает биномиальное ?
Потому что субъективная разница между разными баллами может (сильно) не совпадать. Поэтому не очень корректно, например, сказать, что разница в два балла больше в два раза чем разница в один балл
источник

ВК

Валерий К in R (язык программирования)
Всем привет.
Использую пакет googleAnalyticsR
Авторизацию прошёл, не ругается.
При запросе данных выдаёт такую ошибку:
Error: 'hash' is not an exported object from 'namespace:rlang'
Куда копать?
источник

М

Марк in R (язык программирования)
Привет) А не подскажете, почему lubridate не хочет обрабатывать столбцы с датами из фрейма в data table формате? Как тогда быть?) Переводить сначала в tibble, приводить к дате, а потом обратно в data table? Или есть более простой способ?)
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Марк
Привет) А не подскажете, почему lubridate не хочет обрабатывать столбцы с датами из фрейма в data table формате? Как тогда быть?) Переводить сначала в tibble, приводить к дате, а потом обратно в data table? Или есть более простой способ?)
Можете показать пример кода?
источник

М

Марк in R (язык программирования)
Евгений Томилов
Можете показать пример кода?
источник

М

Марк in R (язык программирования)
источник

М

Марк in R (язык программирования)
Евгений Томилов
Можете показать пример кода?
При этом, если в tibble конвертнуть - все норм
источник

ЕТ

Евгений Томилов... in R (язык программирования)
А можете показать значения в этом столбце?
источник

М

Марк in R (язык программирования)
Синтаксис самого data.table тоже не хочет
from_1C[, date_1C_load := ymd(date_1C_load)]
источник

М

Марк in R (язык программирования)
Евгений Томилов
А можете показать значения в этом столбце?
источник