Телеграмм чат группы rlang

точковый, ясно

07:18пожаловаться #1

J

чего с чем? размера полигона и количества нужных пикселей в нем?

07:18пожаловаться #2

A

Здравствуйте. Я построил пару линейных моделей, где целевой переменной является количество пикселей целевого класса наземного покрова, вычисленных для каждого геопространственного полигона (т.е. образцы в тренировочном наборе) разной площади. Разумеется, маленькие полигоны не могут содержать больше пикселей целевого класса наземного покрова, чем большие, поэтому я добавил площадь полигона как независимую переменную в модели. Первая модель имеет все предикторы, включительно из тем, эффекты которого я хочу проверить (радиационное заражение почвы), вторая - без радиации. Дисперсионный анализ моделей показывает p-value < 0.05, тобишь предиктор радиации является статистически значимым. Могу ли я быть уверен, что такой подход статистически отделяет эффект площади от эффекта радиации? Эффект площади, разумеется, прямо коррелирует с целевой переменной. Я отдельно построил модели для отфильтрованного датасета (до 50 % процентиля). Там min area = 0,5 гектара, max area = 90 гектаров. А медиана 1.3 га. Т.е. я уменьшил разброс площади к 0.5 до 1.3. И все равно эффект радиации остался значимым. Почему спрашиваю: результаты, мягко говоря, не особо логичны (более сильной радиации соответствует большее количество пикселей, т.е. лесного покрова).

Какая сумма квадратов используется? Включены ли взаимодействия факторов?

08:09пожаловаться #3

J

Обычная lm(). Взаимодействия не включал, там вроде нечему взаимодействовать.

08:10пожаловаться #4

A

Я бы вообще предложил по-модному сделать, можно обучить модель (регрессию, лес, бустинг), посмотреть качество предикта, а потом важность фич оценить. Это информативнее, чем смотреть на р-значение

08:13пожаловаться #5

A

Обычная lm(). Взаимодействия не включал, там вроде нечему взаимодействовать.

lm использует сумму квадратов I типа, порядок включения факторов имеет значение (а это не то, чего мы хотим). Нужно брать III тип, чтобы каждый главный эффект считался после вычета остальных эффектов

08:13пожаловаться #6

J

Я бы вообще предложил по-модному сделать, можно обучить модель (регрессию, лес, бустинг), посмотреть качество предикта, а потом важность фич оценить. Это информативнее, чем смотреть на р-значение

я так раньше делал

08:14пожаловаться #7

J

lm использует сумму квадратов I типа, порядок включения факторов имеет значение (а это не то, чего мы хотим). Нужно брать III тип, чтобы каждый главный эффект считался после вычета остальных эффектов

спасибо, сколько еще выучить надо...

08:15пожаловаться #8

A

я так раньше делал

И почему вернулся к p-значению? Из-за мракобесов из ВАК?

08:15пожаловаться #9

J

Нет. Немцы улыбнулись, мягко проигнорировали и сказали фитить glmm, glm, lmm и просто lm)

08:16пожаловаться #10

fj

fedor jilkin in R (язык программирования)

Я бы вообще предложил по-модному сделать, можно обучить модель (регрессию, лес, бустинг), посмотреть качество предикта, а потом важность фич оценить. Это информативнее, чем смотреть на р-значение

Как бы вы оценили важность фич?

08:24пожаловаться #11

J

lm использует сумму квадратов I типа, порядок включения факторов имеет значение (а это не то, чего мы хотим). Нужно брать III тип, чтобы каждый главный эффект считался после вычета остальных эффектов

Я проверил через car::Anova(model, type = 'III'). Остается. Просто из-за невысокой логичности результатов (ожидалось, что не будет эффекта или будет отрицательный - радиация усложняет появление леса, но никак не ускоряет процесс) я вот думаю, или в целом датасет какашка, или площадь полигона вводит что-то типа автокорреляции и глушит все остальное.

08:25пожаловаться #12

J

Хотя я вот по графику хотел бы сказать, что в целом по площади полигоны распределены одинаково по уровням радиации (cont_code)

08:26пожаловаться #13

A

Я проверил через car::Anova(model, type = 'III'). Остается. Просто из-за невысокой логичности результатов (ожидалось, что не будет эффекта или будет отрицательный - радиация усложняет появление леса, но никак не ускоряет процесс) я вот думаю, или в целом датасет какашка, или площадь полигона вводит что-то типа автокорреляции и глушит все остальное.

Почему радиация должна усложнять появление леса? В малых дозах же наоборот стимулирует рост. И второй вопрос - не появилось ли загрязнение позже, чем лес?

08:29пожаловаться #14

A

fedor jilkin

Как бы вы оценили важность фич?

Пермутированная важность, shap

08:29пожаловаться #15

J

Это полигоны бывших сельхоз полей в Чернобыльськой зоне. Пиксели показывают плотный лес, т.е. не кусочки деревьевцев, а где он уже нормально вырос за 34 года (с 1986).

08:30пожаловаться #16

J

Почему радиация должна усложнять появление леса? В малых дозах же наоборот стимулирует рост. И второй вопрос - не появилось ли загрязнение позже, чем лес?

Так проблема в том, что согласно этим данным и моделям, на полигонах, где самая высокая грязь цезия в почве, количество леса на 15-20% выше)

08:31пожаловаться #17

A

Практически уверен, что там просто не было такого фона, чтобы заингибировать рост деревьев

08:31пожаловаться #18

J

ну береза она толерантна к радиации (для сосновых лесов тут есть аналогичная тенденция, но отклонения слишком высоки и потому эффект не статистически значим), но не настолько же)

08:31пожаловаться #19

J

Практически уверен, что там просто не было такого фона, чтобы заингибировать рост деревьев

это да, но мне не известны механизмы, чтоб наоборот так усиливали залеснение полей