Size: a a a

R (язык программирования)

2020 August 31

J

Janzeero in R (язык программирования)
точковый, ясно
источник

J

Janzeero in R (язык программирования)
чего с чем? размера полигона и количества нужных пикселей в нем?
источник

A

Andrey in R (язык программирования)
Janzeero
Здравствуйте. Я построил пару линейных моделей, где целевой переменной является количество пикселей целевого класса наземного покрова, вычисленных для каждого геопространственного полигона (т.е. образцы в тренировочном наборе) разной площади. Разумеется, маленькие полигоны не могут содержать больше пикселей целевого класса наземного покрова, чем большие, поэтому я добавил площадь полигона как независимую переменную в модели. Первая модель имеет все предикторы, включительно из тем, эффекты которого я хочу проверить (радиационное заражение почвы), вторая - без радиации. Дисперсионный анализ моделей показывает p-value < 0.05, тобишь предиктор радиации является статистически значимым. Могу ли я быть уверен, что такой подход статистически отделяет эффект площади от эффекта радиации? Эффект площади, разумеется, прямо коррелирует с целевой переменной. Я отдельно построил модели для отфильтрованного датасета (до 50 % процентиля). Там min area = 0,5 гектара, max area = 90 гектаров. А медиана 1.3 га. Т.е. я уменьшил разброс площади к 0.5 до 1.3. И все равно эффект радиации остался значимым. Почему спрашиваю: результаты, мягко говоря, не особо логичны (более сильной радиации соответствует большее количество пикселей, т.е. лесного покрова).
Какая сумма квадратов используется? Включены ли взаимодействия факторов?
источник

J

Janzeero in R (язык программирования)
Обычная lm(). Взаимодействия не включал, там вроде нечему взаимодействовать.
источник

A

Andrey in R (язык программирования)
Я бы вообще предложил по-модному сделать, можно обучить модель (регрессию, лес, бустинг), посмотреть качество предикта, а потом важность фич оценить. Это информативнее, чем смотреть на р-значение
источник

A

Andrey in R (язык программирования)
Janzeero
Обычная lm(). Взаимодействия не включал, там вроде нечему взаимодействовать.
lm использует сумму квадратов I типа, порядок включения факторов имеет значение (а это не то, чего мы хотим). Нужно брать III тип, чтобы каждый главный эффект считался после вычета остальных эффектов
источник

J

Janzeero in R (язык программирования)
Andrey
Я бы вообще предложил по-модному сделать, можно обучить модель (регрессию, лес, бустинг), посмотреть качество предикта, а потом важность фич оценить. Это информативнее, чем смотреть на р-значение
я так раньше делал
источник

J

Janzeero in R (язык программирования)
Andrey
lm использует сумму квадратов I типа, порядок включения факторов имеет значение (а это не то, чего мы хотим). Нужно брать III тип, чтобы каждый главный эффект считался после вычета остальных эффектов
спасибо, сколько еще выучить надо...
источник

A

Andrey in R (язык программирования)
Janzeero
я так раньше делал
И почему вернулся к p-значению? Из-за мракобесов из ВАК?
источник

J

Janzeero in R (язык программирования)
Нет. Немцы улыбнулись, мягко проигнорировали и сказали фитить glmm, glm, lmm и просто lm)
источник

fj

fedor jilkin in R (язык программирования)
Andrey
Я бы вообще предложил по-модному сделать, можно обучить модель (регрессию, лес, бустинг), посмотреть качество предикта, а потом важность фич оценить. Это информативнее, чем смотреть на р-значение
Как бы вы оценили важность фич?
источник

J

Janzeero in R (язык программирования)
Andrey
lm использует сумму квадратов I типа, порядок включения факторов имеет значение (а это не то, чего мы хотим). Нужно брать III тип, чтобы каждый главный эффект считался после вычета остальных эффектов
Я проверил через car::Anova(model, type = 'III'). Остается. Просто из-за невысокой логичности результатов (ожидалось, что не будет эффекта или будет отрицательный - радиация усложняет появление леса, но никак не ускоряет процесс) я вот думаю, или в целом датасет какашка, или площадь полигона вводит что-то типа автокорреляции и глушит все остальное.
источник

J

Janzeero in R (язык программирования)
Хотя я вот по графику хотел бы сказать, что в целом по площади полигоны распределены одинаково по уровням радиации (cont_code)
источник

A

Andrey in R (язык программирования)
Janzeero
Я проверил через car::Anova(model, type = 'III'). Остается. Просто из-за невысокой логичности результатов (ожидалось, что не будет эффекта или будет отрицательный - радиация усложняет появление леса, но никак не ускоряет процесс) я вот думаю, или в целом датасет какашка, или площадь полигона вводит что-то типа автокорреляции и глушит все остальное.
Почему радиация должна усложнять появление леса? В малых дозах же наоборот стимулирует рост. И второй вопрос - не появилось ли загрязнение позже, чем лес?
источник

A

Andrey in R (язык программирования)
fedor jilkin
Как бы вы оценили важность фич?
Пермутированная важность, shap
источник

J

Janzeero in R (язык программирования)
Это полигоны бывших сельхоз полей в Чернобыльськой зоне. Пиксели показывают плотный лес, т.е. не кусочки деревьевцев, а где он уже нормально вырос за 34 года (с 1986).
источник

J

Janzeero in R (язык программирования)
Andrey
Почему радиация должна усложнять появление леса? В малых дозах же наоборот стимулирует рост. И второй вопрос - не появилось ли загрязнение позже, чем лес?
Так проблема в том, что согласно этим данным и моделям, на полигонах, где самая высокая грязь цезия в почве, количество леса на 15-20% выше)
источник

A

Andrey in R (язык программирования)
Практически уверен, что там просто не было такого фона, чтобы заингибировать рост деревьев
источник

J

Janzeero in R (язык программирования)
ну береза она толерантна к радиации (для сосновых лесов тут есть аналогичная тенденция, но отклонения слишком высоки и потому эффект не статистически значим), но не настолько же)
источник

J

Janzeero in R (язык программирования)
Andrey
Практически уверен, что там просто не было такого фона, чтобы заингибировать рост деревьев
это да, но мне не известны механизмы, чтоб наоборот так усиливали залеснение полей
источник