Здравствуйте!
Возник следующий вопрос: есть dataframe с произвольным числом количественных переменных. Мы хотим построить линейную регрессию для предсказания значений зависимой переменной, однако, в качестве предикторов мы хотим использовать только те переменные, распределение которых значимо не отличается от нормального (p - value теста Шапиро - Уилка больше 0.05). нужно использовать shapiro.test, чтобы проверить на нормальность распределения. Используя sapply(df, function(x) shapiro.test(x)$p.value)
мы можем понять, какие переменные имеют нормальное распределение. Как сделать дата сет, в котором будет только колонки, которые прошли тест на нормальность?