Здравствуйте. Я построил пару линейных моделей, где целевой переменной является количество пикселей целевого класса наземного покрова, вычисленных для каждого геопространственного полигона (т.е. образцы в тренировочном наборе) разной площади. Разумеется, маленькие полигоны не могут содержать больше пикселей целевого класса наземного покрова, чем большие, поэтому я добавил площадь полигона как независимую переменную в модели. Первая модель имеет все предикторы, включительно из тем, эффекты которого я хочу проверить (радиационное заражение почвы), вторая - без радиации. Дисперсионный анализ моделей показывает p-value < 0.05, тобишь предиктор радиации является статистически значимым. Могу ли я быть уверен, что такой подход статистически отделяет эффект площади от эффекта радиации? Эффект площади, разумеется, прямо коррелирует с целевой переменной. Я отдельно построил модели для отфильтрованного датасета (до 50 % процентиля). Там min area = 0,5 гектара, max area = 90 гектаров. А медиана 1.3 га. Т.е. я уменьшил разброс площади к 0.5 до 1.3. И все равно эффект радиации остался значимым. Почему спрашиваю: результаты, мягко говоря, не особо логичны (более сильной радиации соответствует большее количество пикселей, т.е. лесного покрова).
А как собирался датасет? Просто мысль «с полей» - прошлой осенью был как раз в Чернобыльской зоне после пожаров, площади лесов существенно изменяются из-за подобных факторов.