У статистики большие проблемы с тем, чтобы доказывать, что что-то одинаково. Она хорошо показывает, что что-то отличается. Если мы делаем t-test, то стандартная H0 — средние совпадают, H1 — средние не совпадают. Считаем p-value — вероятность увидеть результат как у нас или более экстремальный, если H0 верна. Ну и если p-value меньше заветного 0.05, то мы отвергаем H0. Частая ошибка студентов, это считать, что если p-value больше завтного числа, то мы принимаем H0, ведь на самом деле на этом месте фриквентистская статистика говорит: "мы не можем ни принять, ни опровергнуть H0, идите собирайте все данные заново". Аналогично с тестом на нормальность: H0 — данные распределены нормально, H1 — данные распределены ненормально. Если p-value в таком тесте больше 0.05, то мы не должны радостно бежать и кричать, что у нас нормальные данные, а мы на самом деле не можем, ни принять, ни опровергнуть H0.
Насколько я знаю, p-value показывает, какова вероятность, при истинности нулевой гипотезы, получить такое же или более экстремальное значение статистики. Если p-value достаточно велик (больше 0.5, например), то мы можем допустить, что данные имеют распределение, достаточно близкое к нормальному, чтобы пренебречь разницей между истинным распределением и нормальным распределением.
Это нестрогий подход, и его есть, за что покритиковать, но на практике, если за H1 мы будем брать какое-то другое распределение, то по критерию отношения правдоподобия у нас часто будет наблюдаться статистически значимое различие между H0 и H1