"Как пример условных либералов мы взяли подписчиков разнообразных групп Алексея Навального. Всего 654 тыс. пользователей. .. Как пример аудитории явных консерваторов были взяты подписчики ряда характерных провластных групп, типа "Информационный штаб НОД". Всего 782 тыс. пользователей."
Минус 80-90% ботов и в том и в другом случае - результат УЖЕ зашумлен. Если у вас боты с одной фермы, где лайкают для создания правдоподобности котиков - то у вас пойдет высокая степень корреляции "котик-либерал". Ну и сам критерий смехотворный, особенно второй. Надо было для калибровки взять максимально аполитичные или смешанные группы, типа смехуечков, анимешников, автолюбителей... И по ним откалибровать выборку.
"Значение ближе к середине означают политическую пассивность, отсутствие ярко выраженных политических взглядов. Людей со значением индекса меньше 0.25 и больше 0.75 уже можно называть «активистами»."
И где, коллега студент, у вас ГИСТОГРАММА активистов? Какова сигма распределения? Какая доля анкет НЕ поддалась атрибуции? Сколько у нас в диапазоне 0.25-0.75? 50% или 95% выборки?
"Результаты получились довольно впечатляющими и говорят сами за себя.
При проверке на контрольной выборке модель показала точность предсказания политических взглядов 95% ! "
А как вы производили контроль выборки? Вручную определяли, что за анкета? Тогда как велика была выборка, сколько в ней было анкет "актива", а сколько "молчаливого среднего"? Были ли там молчуны вообще?
И дальше смотрим: что по городам? А по городам у вас никакого среднего нет. Только соотношение активистов. А "болото" что, не голосует?
Спасибо, достаточно - идите работайте и приносите выборку С УЧЕТОМ "молчаливого среднего".
http://skydigital.pro/node/64