Size: a a a

R (язык программирования)

2020 July 05

АР

Александр Райков... in R (язык программирования)
EK479
Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?
1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)
источник

PU

Philipp Upravitelev in R (язык программирования)
на колько я помню, в r тест манна-уитни идет с помощью wilcox.test
источник

АР

Александр Райков... in R (язык программирования)
EK479
Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?
3) Эти тесты сравнивают не средние, а их условный непараметрический аналог - средний ранг. Причём средний ранг принимает никак не интерпретируемые значения. Если вам позарез нужны именно средние, то надо делать ANOVA (параметрический). При этом надо понимать, что ANOVA теоретически требует нормальности распределения внутри каждой категории , что может и не соблюдаться. Ещё можно сравнивать не средние, а медианы.
источник

АР

Александр Райков... in R (язык программирования)
Philipp Upravitelev
на колько я помню, в r тест манна-уитни идет с помощью wilcox.test
Ок. Ну если там Манн-Уитни без коррекции, то привет от Бонферрони впридачу
источник

E

EK479 in R (язык программирования)
Александр Райков
1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)
Наверное, можно полагать, что это выборка. Явно в этом датасете не все блюда меню. Не знаю, насколько это случайная выборка.
Я бы хотела показать примерно следующее: блюда из категории завтраки и свинина по калорийности равны, а салаты в среднем имеют меньшую калорийность и т.п.
Получается, оптимальнее всего выбрать критерий Данна из пакета FSA,как сказал Александр?
источник

EP

Ed P in R (язык программирования)
Байкулов Антон
Господа, а есть ли среди нас Rыцари moex? Есть пару вопросов по candle chart models.
я наверное про moex что-то знаю
источник

IS

Ivan Struzhkov in R (язык программирования)
EK479
Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?
Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет?   Пусть тесты показывают, что угодно. 5<6

. В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать.  

Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.
источник

E

EK479 in R (язык программирования)
Ivan Struzhkov
Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет?   Пусть тесты показывают, что угодно. 5<6

. В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать.  

Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.
Спасибо за аналогию с кошельками, так гораздо яснее, в чем проблема моей работы
источник

IS

Ivan Struzhkov in R (язык программирования)
рад если помогло
источник

АР

Александр Райков... in R (язык программирования)
Ivan Struzhkov
Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет?   Пусть тесты показывают, что угодно. 5<6

. В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать.  

Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.
Тут, очевидно, делается попытка анализа "А насколько серьёзны различия между тем, что есть и насколько могло быть иначе?". А вполне ведь могло быть так, что в этот салат вместо телятины клали курятину, это ж практически случайность, а калорийность другая. Проблема в том, что эта случайность - другого рода, нежели порождаемая выборочным методом, и p-значения её не ухватывают
источник

IS

Ivan Struzhkov in R (язык программирования)
Что значит насколько серьезные отличия? Ситема с полными данными
источник

IS

Ivan Struzhkov in R (язык программирования)
Насколько серьезная разница между 100 рублями в кошельке и 150 рублями в кошельке?
источник

АР

Александр Райков... in R (язык программирования)
я написал через "бы". Насколько закономерно, что салаты менее калорийны свинины или при чуть-чуть другой рецептуре это, прекрасно оставаясь салатом, было бы на уровне
источник

АР

Александр Райков... in R (язык программирования)
Ivan Struzhkov
Насколько серьезная разница между 100 рублями в кошельке и 150 рублями в кошельке?
Если вы всю жизнь собираетесь носить в кошельке 100 и 150 рублей, то непреодолимая
источник

АР

Александр Райков... in R (язык программирования)
если вы в принципе могли бы положить в правый карман другую сумму, и в левый карман - другую (и может, завтра так и получится), то вопрос не бессмыслен. Просто он не решается методами индуктивной статистики
источник

IS

Ivan Struzhkov in R (язык программирования)
На мой взгляд смысла не имеет. Я не вижу в вопросе никакой вероятности. Есть факты - калорийность в конкретном меню. Деньги в кошельке  и тд. Все открыто и детерминировано.  Все счетно.  Какие то построения из серсии "что могло бы быть" - меняют постановку
источник

АР

Александр Райков... in R (язык программирования)
EK479
Наверное, можно полагать, что это выборка. Явно в этом датасете не все блюда меню. Не знаю, насколько это случайная выборка.
Я бы хотела показать примерно следующее: блюда из категории завтраки и свинина по калорийности равны, а салаты в среднем имеют меньшую калорийность и т.п.
Получается, оптимальнее всего выбрать критерий Данна из пакета FSA,как сказал Александр?
А что мешает взять все блюда Макдоналдса определённых категорий? Их не много, и информация открыта
источник

АР

Александр Райков... in R (язык программирования)
Ivan Struzhkov
На мой взгляд смысла не имеет. Я не вижу в вопросе никакой вероятности. Есть факты - калорийность в конкретном меню. Деньги в кошельке  и тд. Все открыто и детерминировано.  Все счетно.  Какие то построения из серсии "что могло бы быть" - меняют постановку
Возможно, я додумываю постановку, но я не вижу смысла как раз в вопросе Средней калорийности определённых категорий блюд меню определённого заведения на определённый момент времени. Кому это нужно? Посетитель ест не усреднённый салат, а вполне конкретный
источник

E

EK479 in R (язык программирования)
Александр Райков
А что мешает взять все блюда Макдоналдса определённых категорий? Их не много, и информация открыта
Ничего) просто изначально информация была взята готовая с kaggle. Но поищу более полные данные
источник

IS

Ivan Struzhkov in R (язык программирования)
Александр Райков
Возможно, я додумываю постановку, но я не вижу смысла как раз в вопросе Средней калорийности определённых категорий блюд меню определённого заведения на определённый момент времени. Кому это нужно? Посетитель ест не усреднённый салат, а вполне конкретный
Если говорить про исследование вообще -  (и это правда далеко от первоначальной постановки) - то можно исследовать следующие наборы данных.

1. Предложение ресторанов - типология меню, агрегаты калорийности и БЖУ
2.Типичное выборы потребителей
3. Типичный каллораж выборов и стоимость, получаемая из 1 и 2

Там дальше начинается уже интересно - и появляются понятные направления интереса - какая модель оптимизирует взаимодействие по выручке и прибыли, можно накидать юнит экономику.
Думаю примерно так появились в куче заведний суши и пицца.
источник