Телеграмм чат группы rlang_ru страница 2204

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

R (язык программирования)

1150 membersпожаловаться на группу

2020 July 05

АР

Александр Райков... in R (язык программирования)

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?

1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)

источник

16:12пожаловаться #1

PU

Philipp Upravitelev in R (язык программирования)

на колько я помню, в r тест манна-уитни идет с помощью wilcox.test

источник

16:17пожаловаться #2

АР

Александр Райков... in R (язык программирования)

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?

3) Эти тесты сравнивают не средние, а их условный непараметрический аналог - средний ранг. Причём средний ранг принимает никак не интерпретируемые значения. Если вам позарез нужны именно средние, то надо делать ANOVA (параметрический). При этом надо понимать, что ANOVA теоретически требует нормальности распределения внутри каждой категории , что может и не соблюдаться. Ещё можно сравнивать не средние, а медианы.

источник

16:19пожаловаться #3

АР

Александр Райков... in R (язык программирования)

Philipp Upravitelev

на колько я помню, в r тест манна-уитни идет с помощью wilcox.test

Ок. Ну если там Манн-Уитни без коррекции, то привет от Бонферрони впридачу

источник

16:20пожаловаться #4

E

EK479 in R (язык программирования)

Александр Райков

1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)

Наверное, можно полагать, что это выборка. Явно в этом датасете не все блюда меню. Не знаю, насколько это случайная выборка.
Я бы хотела показать примерно следующее: блюда из категории завтраки и свинина по калорийности равны, а салаты в среднем имеют меньшую калорийность и т.п.
Получается, оптимальнее всего выбрать критерий Данна из пакета FSA,как сказал Александр?

источник

16:32пожаловаться #5

EP

Ed P in R (язык программирования)

Байкулов Антон

Господа, а есть ли среди нас Rыцари moex? Есть пару вопросов по candle chart models.

я наверное про moex что-то знаю

источник

18:13пожаловаться #6

IS

Ivan Struzhkov in R (язык программирования)

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?

Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет? Пусть тесты показывают, что угодно. 5<6

. В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать.

Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.

источник

20:01пожаловаться #7

E

EK479 in R (язык программирования)

Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет? Пусть тесты показывают, что угодно. 5<6

. В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать.

Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.

Спасибо за аналогию с кошельками, так гораздо яснее, в чем проблема моей работы

источник

20:03пожаловаться #8

IS

Ivan Struzhkov in R (язык программирования)

рад если помогло

источник

20:07пожаловаться #9

АР

Александр Райков... in R (язык программирования)

Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет? Пусть тесты показывают, что угодно. 5<6

. В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать.

Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.

Тут, очевидно, делается попытка анализа "А насколько серьёзны различия между тем, что есть и насколько могло быть иначе?". А вполне ведь могло быть так, что в этот салат вместо телятины клали курятину, это ж практически случайность, а калорийность другая. Проблема в том, что эта случайность - другого рода, нежели порождаемая выборочным методом, и p-значения её не ухватывают

источник

22:14пожаловаться #10

IS

Ivan Struzhkov in R (язык программирования)

Что значит насколько серьезные отличия? Ситема с полными данными

источник

22:15пожаловаться #11

IS

Ivan Struzhkov in R (язык программирования)

Насколько серьезная разница между 100 рублями в кошельке и 150 рублями в кошельке?

источник

22:15пожаловаться #12

АР

Александр Райков... in R (язык программирования)

я написал через "бы". Насколько закономерно, что салаты менее калорийны свинины или при чуть-чуть другой рецептуре это, прекрасно оставаясь салатом, было бы на уровне

источник

22:16пожаловаться #13

АР

Александр Райков... in R (язык программирования)

Насколько серьезная разница между 100 рублями в кошельке и 150 рублями в кошельке?

Если вы всю жизнь собираетесь носить в кошельке 100 и 150 рублей, то непреодолимая

источник

22:16пожаловаться #14

АР

Александр Райков... in R (язык программирования)

если вы в принципе могли бы положить в правый карман другую сумму, и в левый карман - другую (и может, завтра так и получится), то вопрос не бессмыслен. Просто он не решается методами индуктивной статистики

источник

22:17пожаловаться #15

IS

Ivan Struzhkov in R (язык программирования)

На мой взгляд смысла не имеет. Я не вижу в вопросе никакой вероятности. Есть факты - калорийность в конкретном меню. Деньги в кошельке и тд. Все открыто и детерминировано. Все счетно. Какие то построения из серсии "что могло бы быть" - меняют постановку

источник

22:23пожаловаться #16

АР

Александр Райков... in R (язык программирования)

Наверное, можно полагать, что это выборка. Явно в этом датасете не все блюда меню. Не знаю, насколько это случайная выборка.
Я бы хотела показать примерно следующее: блюда из категории завтраки и свинина по калорийности равны, а салаты в среднем имеют меньшую калорийность и т.п.
Получается, оптимальнее всего выбрать критерий Данна из пакета FSA,как сказал Александр?

А что мешает взять все блюда Макдоналдса определённых категорий? Их не много, и информация открыта

источник

22:23пожаловаться #17

АР

Александр Райков... in R (язык программирования)

На мой взгляд смысла не имеет. Я не вижу в вопросе никакой вероятности. Есть факты - калорийность в конкретном меню. Деньги в кошельке и тд. Все открыто и детерминировано. Все счетно. Какие то построения из серсии "что могло бы быть" - меняют постановку

Возможно, я додумываю постановку, но я не вижу смысла как раз в вопросе Средней калорийности определённых категорий блюд меню определённого заведения на определённый момент времени. Кому это нужно? Посетитель ест не усреднённый салат, а вполне конкретный

источник

22:28пожаловаться #18

E

EK479 in R (язык программирования)

Александр Райков

А что мешает взять все блюда Макдоналдса определённых категорий? Их не много, и информация открыта

Ничего) просто изначально информация была взята готовая с kaggle. Но поищу более полные данные

источник

22:28пожаловаться #19

IS

Ivan Struzhkov in R (язык программирования)

Александр Райков

Возможно, я додумываю постановку, но я не вижу смысла как раз в вопросе Средней калорийности определённых категорий блюд меню определённого заведения на определённый момент времени. Кому это нужно? Посетитель ест не усреднённый салат, а вполне конкретный

Если говорить про исследование вообще - (и это правда далеко от первоначальной постановки) - то можно исследовать следующие наборы данных.

1. Предложение ресторанов - типология меню, агрегаты калорийности и БЖУ
2.Типичное выборы потребителей
3. Типичный каллораж выборов и стоимость, получаемая из 1 и 2

Там дальше начинается уже интересно - и появляются понятные направления интереса - какая модель оптимизирует взаимодействие по выручке и прибыли, можно накидать юнит экономику.
Думаю примерно так появились в куче заведний суши и пицца.

источник

22:33пожаловаться #20