Здравствуйте! У меня есть данные из меню масдональдса. Там блюда разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F)
. Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?
3) Эти тесты сравнивают не средние, а их условный непараметрический аналог - средний ранг. Причём средний ранг принимает никак не интерпретируемые значения. Если вам позарез нужны именно средние, то надо делать ANOVA (параметрический). При этом надо понимать, что ANOVA теоретически требует нормальности распределения внутри каждой категории , что может и не соблюдаться. Ещё можно сравнивать не средние, а медианы.