Facebook
Mikhail Sokolov
Продолжение. Совершенно неожиданно, прошлый пост оказался самым читаемым из всех, которые я написал по сей день, и, подозреваю, окажется самым читаемым из всех, которые я напишу когда-либо. Поскольку дискуссия росла сама собой и часть замечаний к нему начала повторяться, я попробую на них ответить в посте-продолжении; он будет нудным и техническим и состоять из ответов на три вопроса: (1) Знаем ли мы, что наша выборка смещенная? И как это сказывается на наших выводах? (2) Что у нас по осям? (3) Могут ли за всем стоять различия в уровне занятости? (1) Знаем ли мы, что наша выборка смещенная? И как это сказывается на наших выводах? Тут ответ из двух частей – во-первых, не факт, что такая уж смещенная. Во-вторых, то, что она смещенная, не значит, что выводы недостоверны. По поводу смещения. Аргумент «я не хожу в библиотеку, и мои друзья в нее не ходят, значит, таких как мы выборка не охватывает, значит, она смещенная», на самом деле, не работает. Это как сказать «у меня нет шести пальцев на руки, и ни у кого из моих друзей нет шести пальцев, значит, если кто-то опросит всех людей с шестью пальцами в стране об их гастрономических предпочтениях, то эта выборка будет нерепрезентативна для населения в целом». Это не так, как раз выборка шестипалых будет очень представительна т.к. это анатомическое отклонение видимо, возникает среди детей всех социальных группах с равной частотой и с факторами, определяющими гастрономические предпочтения, вероятно, не связана. Выборка становится непредставительной, если шансы на попадание в нее коррелирует с каким-то из оцениваемых признаков. Так ли это – нельзя сказать априорно на основании собственного опыта; возможно, группы людей, очень похожих на вас и ваших друзья, ходят в библиотеки. Кто в них, на самом деле, ходит? Тут данных немного, но есть очень хорошая серия опросов, проводившихся прекрасным петербургским социологом Михаилом Евгеньевичем Илле в 2005-2011 годах. Она показывает, что смещения есть, но не слишком масштабные. Например, на картинке ниже распределения восьми видов культурной активности в Петербурге по возрастным группам. Среди посетителей библиотек явно сверхпредставлены люди студенческого возраста. Затем, к 24 годам, в их посещении наступает спад, который продолжается и дальше, хотя и в гораздо более медленном темпе. Отвлекаясь, вопреки стереотипу, пенсионеры участвуют во ВСЕХ формах культурной жизни крупного города менее энергично, чем молодые люди. Где-то спад начинается сразу (кино, поп-музыка), где-то медленнее (позднее всего - в посещении концертов классической музыки), но, в целом, представление о том, что оболваненная ЕГЭ и Голливудом молодежь пренебрегает вечными культурным ценностям, подтверждения не находит. Это хорошая новость, плохая – что старикам в России оказывается не место даже в библиотеках. Разница в читательской активности, связанная с образованием и полом тоже есть, но не драматичная. Второе – если выборка все-таки смещенная, то как это сказывается на наших выводах? Ответ: на наших – вероятнее всего, почти никак. Нас интересуют статистические связи между признаками, а не их абсолютные частоты. Если Бушкова читают в основном мужчины, и, при этом, мужчины недопредставлены в нашей выборке, то мы получили недооценку числа читателей Бушкова в генеральной совокупности, но корреляция с полом сохранится (В качестве доказательства, можно поставить мысленный эксперимент. Представьте себе, что все мужчины читают Бушкова, и ни одна женщина его не читает. В генеральной совокупности их примерно 50:50. Мы взяли репрезентативную выборку и посчитали корреляцию между признаком «мужской пол» и признаком «чтение Бушкова». Она равна +1. А теперь мы взяли очень перекошенную по полу выборку, где женщин 90%. Чему равно корреляция? Тому же +1. Если задача оценить емкость рынка, то такая выборка не годится. А если надо установить существование связи пола с читательским предпочтениями, то, в общем, годится. Чтобы она не годилась, надо, чтобы имела место какая-то более сложная зависимость, вроде того, что мужчины, читающие Бушкова, попадают в нее реже, чем женщины, читающие Бушкова, но, при этом, мужчины и женщины, не читающие Бушкова, попадают в нее примерно с равной частой. Такое возможно, но нужны специальные вспомогательные гипотезы, объясняющие, почему это может быть правдоподобно). В этом смысле, само по себе утверждение, что представители разных профессий пользуются библиотеками, книжными магазинами и Интернетом с разной интенсивностью не затрагивает наших выводов. Как и предположение, что читатели с разными литературными предпочтениями пользуются всеми этими источниками с разной частотой. Пока хоть какая-то значимая доля каждой группы доходит до библиотеки, наша картинка мало изменится. (Это рассуждение касается парных коэффициентов связи и многомерного шкалирования и факторного анализа, работающих с таковыми; я в курсе, что для некоторых других методов типа регрессий смещения выборки могут иметь более неприятные последствия) Самое удивительное, что имеющиеся смещения, видимо, не сказываются даже на оценках относительной популярности авторов. Вот здесь можно посмотреть на статистику Книжной палаты по 20 самым издаваемым авторам книг ( http://www.bookchamber.ru/statistics.html ), а вот тут вот - самые скачиваемые книги с крупной электронной библиотеки (http://bookz.ru/top100_authors.html). ВСЕ top 20 Книжной палаты за 2014 год входят в наши top 50. Из 100 самых скачиваемых в наших top 100 обнаруживается 90 человек. Нет вообще никаких оснований считать, что читатели библиотек отличаются от читателей, которые получают книги иным путем. Интуитивно - должны. Статистически - нет. Как объяснить это самому себе - я не знаю; если есть объяснения – буду рад услышать. (2) Что у нас по осям? На картинке результат многомерного шкалирования. Оно демонстрирует, как можно отобразить информацию о дистанциях между большим числом точек в небольшом числе измерений - в данном случае, двух – с минимальной потерей информации. (классическое описание метода от создателя - http://forrest.psych.unc.edu/teaching/p208a/mds/mds.html ). В результате появляется карта, демонстрирующая относительную дистанцию между объектами. В нашем случае, здесь есть два пространства – дистанции между авторами (соответствующие вероятности, что два автора буду взяты представителем одной профессиональной группы) и дистанции между профессиональными группами (соответствующие вероятности, что их представители возьмут одного и того же автора) наложенные друг на друга. Собственно, основная задача в анализе как раз состоит в том, чтобы понять, что там оказалось отражено по осям, поскольку оси соответствуют признакам, максимально поляризующим вкусы. В данном случае, наша интерпретация такая. Мы, похоже, имеем ось образования (проходит из правого верхнего в левый нижний угол) и пол (из левого верхнего в правый нижний). Скопление точек треугольное, поскольку пол дифференцирует только вкусы аудиторий с невысоким образованием. Почему мы так думаем? Потому, что рисовали пространство, в котором осям соответствовали доли людей с высшим образованием в аудитории данного автора и доли мужчин/женщин. Оно на еще одной картинке в приложении. На ней отражено аж 200 авторов – для тех, кому не хватило 10. Легко заметить, что и та, и другая форма треугольная в своей основе, и что, если развернуть рисунок на картинке примерно на 135 градусов против часовой стрелки а затем отзеркалить, получится что-то очень напоминающее работу алгоритма. Алгоритм располагает оси, руководствуясь своими соображениями оптимизиции, так что у нас получилось измерение «необразованная мужественность vs. все прочее» (Х) и «необразованная женственность vs. все прочее». То, что демонстрирует сравнение двух картинок – это то, что, хотя процент образованных в целом работает хорошо, некоторые профессии ведут себя вопиюще не в соответствие с ожидаемым для данной доли образованных (скажем, врачи в среднем образованнее индивидуальных предпринимателей, но у тех более образованные вкусы в чтении). Мы написали статью, построенную как раз вокруг имеющих однозначную интерпретацию осей, и если кто-то взглянет на нее, то сделает авторам приятное: http://www.jourssa.ru/…/Sokolov_Sokolova_Safonova_2016_3.pdf (3) Может ли это быть эффектом различий в уровне занятости? В принципе, да, это возможно. Поскольку исследований бюджетов времени по профессиям для современной России мы не знаем, то это остается правдоподобной догадкой. Но тогда, накладывая на предыдущее замечание, должно получиться, что утомляемость на работе как-то очень сильно связано с долей образованных в данной профессиональной нише. Рабочие работают, а специалисты, за исключением врачей и учителей, только делают вид. Это, опять же, возможно… хотя для меня интуитивно выглядит странно. Разумеется, после сказанного выше я не могу ссылаться на свою обывательскую интуицию.