Salus populi suprema lex (988) (don_katalan) wrote,
Salus populi suprema lex (988)
don_katalan

Большая ложь vs Статистика: Кластерный анализ избирательных участков г. Москвы

Сергей Е.

Прошедшие в России выборы всколыхнули интерес к такому разделу математики, как теория вероятностей и математическая статистика. Наука эта довольно коварная: с одной стороны она оперирует понятиями прочно вошедшими в лексикон даже далёких от математики людей, некоторые приложения этой науки (например, азартные игры, лотереи, управление риском) довольно близки многим людям, даже неспециалистам. В то же время зачастую выводы этой науки противоречат бытовой "интуиции" и "здравому смыслу". Да и сами научные определения математических терминов теорвера не во всём совпадают с бытовыми представлениями. Это коварство науки нашло отражение в анекдотах про "вероятность встретить на улице динозавра" и в крылатых высказываниях про "ложь, наглую ложь и статистику". Конечно, статистические методы — это не разновидность лжи, но вот к различным интерпретациям статистики надо относиться очень осторожно. Чтобы понимать о чём идёт речь, крайне желательно ознакомиться с основными понятиями теории вероятностей, хотя бы по статьям в Википедии "вероятность","случайная величина""плотность распределения""статистическая независимость" и др.

Как известно, ЦИК РФ уже не первые выборы публикует всю информацию о результатах подсчётов голосов на своих сайтах в Интернете. Информация предоставляется очень подробная, с точностью до отдельного УИК, любой желающий может её скачать и обработать в меру своих способностей. Впервые этим начали заниматься ещё на выборах в Госдуму 2007 года, и сразу же возникло сразу много вопросов к изберкомам. Исследователей смущало то, что количество голосов, отданных за партию власти не подчиняется т. н. "нормальному распределению" (или распределению Гаусса), а так же то, что процент голосов за ЕдРо на участках с высокой явкой оказывался выше, чем на участках с низкой. Г-н Чуров, глава ЦИК, ответил на все подобного рода обвинения в виде "типа научной" статьи, из которой следовало, что нормального распределения быть и не должно, и рост голосов за партию власти с ростом явки — дело нормальное. В 2011 году аналогичные обвинения продолжились, а к ним добавилось замечание того, что на "круглых" процентах отчётливо видны пики: участков, на которых ЕдРо получило 50, 55, 60, 65% заметно больше, чем участков с 51 или 67%. Тотчас нашлись защитники официальных результатов выборов в Госдуму. Все они как один уверяли, что не голосовали за ПЖиВ (Партия Жуликов и Врунов), и вообще они сторонники другой партии, но истина им дороже. То ли правда, то ли признаваться в симпатиях к ЕдРу уже стало неприлично — не известно. Я хоть и не защитник официальных результатов, но за ЕдРо тоже не голосовал. Как, впрочем, и за все остальные партии, но истина мне дороже ничуть не меньше.




Давайте разберёмся, что же это за нормальное распределение, какое оно имеет отношение к выборам, и когда оно может наблюдаться, а когда — нет. Нормальное (или гауссово) распределение — непрерывное, и определено на всей числовой прямой. То есть величина, подчиняющаяся этому распределению, может принимать сколь угодно большие и малые (в том числе — отрицательные), а так же — иррациональные значения. Так как процент голосов за любую партию, а так же явка на участках всегда принимают только рациональные значения от 0 до 100%, то нормальному распределению он подчиняться не может — говорят нам безымянные представители Чурова в этих наших интернетах. И так оно и есть. С другой стороны, эти случайные величины могут иметь распределение довольно близкое к нормальному. Характерной особенностью нормального распределения является то, что сумма любого количества независимых случайных величин, подчиняющихся этому распределению (с любыми параметрами) — тоже подчиняется нормальному распределению. И это ещё не всё. Существует Центральная Предельная Теорема (ЦПТ), утверждающая в самой простой формулировке, что у большого числа одинаково распределённых независимых случайных величин, среднее арифметическое имеет распределение, которое стремится к нормальному с ростом числа этих величин. Например, нормальная монета падает на каждую из сторон с вероятностью 50%. Если вы бросите монету 1000 раз и посчитаете количество "орлов", или процент "орлов" от общего числа бросков, то результат будет случайным и будет иметь распределение, весьма близкое к нормальному со средним значением равным 500 или 50%. В этом можно будет убедиться, проведя много серий по 1000 бросков. С ростом числа бросков в серии распределение числа "орлов" будет всё сильнее и сильнее приближаться к нормальному распределению. В более сильных вариантах ЦПТ утверждается, что случайные величины не обязаны иметь одинаковое распределение, важно только, чтобы они все давали примерно одинаковый вклад в среднее арифметическое. То же самое касается и их статистической независимости. Зависимость допустима, но не сильно большая. Наличие статистической зависимости приводит к тому, что среднее арифметическое сходится к нормальному распределению медленнее.

Рассмотрим простую модель выборов. Допустим, все избирательные участки имеют одно и то же количество зарегистрированных избирателей S и одно и то же количество сторонников партий, допущенных к голосованию —S*Ri для i-ой партии. Все сторонники определённой партии пойдут проголосовать с одной и той же вероятностью Pi, зависящей только от партии. Тогда количество голосов, отданных за i-ю партию на одном участке — это суммаS*Ri случайных величин, принимающих значение 1 с вероятностью Pi и 0 — с вероятностью 1-Pi. На выборах голоса всех людей у нас имеют равный вес, поэтому при большом числе сторонников этой партии на участках и статистической независимости явок на выборы отдельных людей, эта сумма будет иметь распределение близкое к нормальному. Почти нормальное распределение будет и у суммарной явки сторонников всех партий. Процент голосов, отданных за партию на участке — это отношение двух случайных величин, распределённых нормально (но статистически зависимых). Названия для распределения такой случайной величины не придумано, строго говоря оно не является нормальным, но тоже похоже на колокол. Непонятно откуда пошло, что результаты голосований обычно подчиняются логнормальному распределению (тоже колокол, но с удлинённой правой стороной), что якобы объясняет странный вид распределения голосов за ЕР. В подтверждение приводят исследование "британских учёных" и графики оттуда. Правда, от глаз фанатов чуровской магии ускользает один момент: в данной статье на гистограммах, которые иллюстрируют функцию плотности распределения, по горизонтали откладывают не процент голосов, полученных кандидатом, а... его логарифм.

Подставим в нашу модель конкретные числа. Пусть у нас есть 3000 УИК, в каждом зарегистрировано 2500 чел. Также пусть имеется всего три партии. На каждом участке у партии А 10% сторонников, Б — 20%, а у партии власти В — 70%. Но у первых двух партий избиратели дисциплинированные и ходят на выборы с вероятностью 80 и 95% соответственно, а сторонники партии власти хоть и более многочисленные, но на выборы ходят редко, с вероятностью 30%. Несложно посчитать, что в таком случае в среднем партия А будет получать 16,7% голосов, партия Б — 39,6%, а партия В — 43,7%. Средняя явка составит 48%. Гистограммы распределения голосов за партии, а так же явки — оказываются очень похожи на нормальное распределение:

Гистограммы частот голосов за партии и явок

Гистограммы частот голосов за партии и явок

А если мы посмотрим как зависит количество голосов, полученное партиями на участке от явки, то увидим уже знакомую зависимость: на участках с высокой явкой процент проголосовавших за "партию власти" (синий цвет) выше, а процет голосов за остальные партии с ростой явки почти не меняется.

По вертикали - процент голосов за партии, по горизонтали - отношение явки к числу зарегистрированных избирателей на участке

По вертикали - процент голосов за партии, по горизонтали - отношение явки к числу зарегистрированных избирателей на участке

Но подобная картина будет наблюдаться только в том случае, если "электоральные предпочтения" на всех участках одни и те же. И если избиратели принимают решения о выборе сравнительно независимо друг от друга (грубо говоря, не голосуют "хором" за того, за кого приказал товарищ начальник, или договорились в студенческом форуме). В действительности же, Россия — страна большая, в разных регионах разные условия и отношения людей к партиям — тоже разное. Вот что пишет о факторах, влияющих на выбор граждан в своей антиразоблачительной статье г-н Чуров:

К основным параметрам модели электоральных предпочтений отнесем следующие:

1) место проживания (принадлежность к определенной электоральной географии):

- город/село, регион;

- экономическое состояние региона;

- социокультурные традиции (особенности электоральной культуры).

2) динамика экономического благосостояния:

- динамика по группам населения (молодежь, работающие, пенсионеры и т.д.);

- протестные настроения.

3) категории населения:

- возраст/пол/трудовой статус и др.

К дополнительным параметрам модели электоральных предпочтений можно отнести:

1) влияние СМИ в регионе (те же социологические опросы показывают, что около 97% населения РФ получает информацию именно с помощью телевидения, при этом 17-20% считают, что делают выбор при голосовании под влиянием СМИ [8]);

2) динамика политический предпочтений (статистика ВЦИОМ, ФОМ и др.);

3) работа партий в регионах (статистика деятельности региональных отделений партий);

Всё это, действительно, так. И если мы будем рассматривать большие группы участков с примерно одинаковыми условиями, то на каждой отдельной группе мы будем наблюдать распределения голосов и явки, близкие к нормальным. Однако распределения голосов по всей стране будут иметь более сложный вид смеси нескольких нормальных распределений. Вот что на этот счёт пишет г-н Чуров:

Если сложить все тенденции, определяемые каждым конкретным подмножеством УИК, то, во-первых, можно говорить о неоднородности всего множества УИК, и, во-вторых, что в пределах каждого подмножества закон распределения УИК оказывается близок к нормальному, за исключением "закрытых" УИК, которые по оговоренным выше причинам отнесем к подмножеству "особой электоральной культуры". Но опять же повторимся, что вклад этого подмножества в общую картину невелик, а утверждение о нарушениях законодательства спорно.

То есть, если мы откинем участки с особой электоральной культурой (которые по утверждению Чурова невелики) — воинские части, суда и т. д., и выделим однородные подмножества УИК, то распределения голосов и явки на каждом подмножестве должны быть похожи на нормальное.

О всей Российской Федерации мне судить весьма сложно. Половину своей жизни я прожил в Москве, а, например, в Чечне или Дагестане вообще ни разу не был. Вполне возможно, что в Чечне и в самом деле все сепаратисты мокнут в сортирах, а добропорядочные граждане уже давно мечтают не о независимой Ичкерии, а о России. Причём, исключительно о Единой. Москва — регион большой, но в политическом отношении однородный. Всю её практически на 100% контролирует партия ЕР, которая во всех районах проводит примерно одинаковую политику. Бюджет Москвы общий, на всей территории города единые тарифы на услуги ЖКХ и транспорт, во всех районах одни и те же надбавки к пенсиям, фактически единый рынок рабочей силы. Оппозиционные партии во всех районах действуют (или бездействуют) примерно одинаково интенсивно. Предвыборная кампания на территории всего города проводилась примерно одинаково. В общем, нет никаких оснований считать, что партия власти и оппозиция в каких-то районах Москвы могли оказаться "симпатичнее", чем в других районах. Однако, беглый взгляд на данные ЦИК по Москве показывают, что в городе есть обычные (без особой "электоральной культуры") участки с сильно отличающимися результатами голосования: на одних ЕР уверенно занимает первое место, а на других — заметно отстаёт от лидера, КПРФ, или идёт ноздря в ноздрю. Также заметно, что на участках, где ЕР уверенно лидирует, партия "Яблоко" получает микроскопическое количество голосов (у других партий тоже результаты заметно хуже), а на участках со скромными процентами за ЕР результаты "Яблока" сравнимы с результатами "Справедливой России" и ЛДПР. Причём, иногда такая разница в результатах наблюдается в соседних участках, располагающихся буквально в одной школе на разных этажах.

Разумеется, Москва — город социально неоднородный (см. например, карту уровня доходов москвичей). С одной стороны, в Москве всё еще не сформировались национальные или социальные гетто. В обычной многоэтажке спального района могут проживать квалифицированные высокооплачиваемые специалисты и неквалифицированные, представители малого бизнеса и работяги, пенсионеры и алкоголики, многодетные семьи и бездетные. Однако, в Москве есть ярко выраженные богатые районы — с большим количеством современных новостроек. Обитатели этих новостроек достаточно обеспеченные, приобретали квартиры за собственные (или кредитные) средства. Разумно предположить, что решающее влияние на выбор граждан влияет их социальное положение: обитатели элитных микрорайонов голосуют совсем не так, как жители убогих трущоб.

Чтобы проверить эту гипотезу, постараемся разделить множество московских УИК на однородные подмножества и посмотрим, как это разделение соответствует объективному разделению города на богатые и бедные районы.

Всего в Москве 3374 участков. Отбросим участки с маленьким количеством избирателей (меньше 600). Во-первых, если количество избирателей мало, ЦПТ работает значительно хуже. Во-вторых, так мы избавляемся от участков с "особой электоральной культурой". В-третьих, маленькие участки естественным образом дают пики на дробях с малыми знаменателями (подробнее, например, тут). Участков с малым количеством избирателей оказалось совсем немного — ровно 180. Что составляет чуть более 5% от общего числа участков и менее процента от числа избирателей. Какими бы ни были удивительными результаты этих участков, на общий итог они влияют не сильно.

Оставшиеся 3194 участка представим в виде точек в 3-мерном пространстве с координатами, равными проценту голосов за ЕР, "Яблоко" и проценту явки на участке. Затем разделим их на два кластера с помощью EM-алгоритма. Этот алгоритм специально разработан для разделения смесей нескольких нормальных распределений. В результате получается, что все УИК делятся на два подмножества, довольно сильно различающиеся по результатам выборов:

  1. Количество УИК: 897. Явка: 50,2%. Голосов за партии: СР — 17,4%, ЛДПР — 12,9%, ПР — 1,8%, КПРФ — 25,5%, "Яблоко" - 14,4%, ЕР — 24,9%, ПД — 1,1%.
  2. Количество УИК: 2297. Явка: 65,2%. Голосов за партии: СР — 10,6%, ЛДПР — 8,4%, ПР — 1,2%, КПРФ — 17,6%, "Яблоко" - 6,9%, ЕР — 52,8%, ПД — 0,74%.

Гистограммы явок в отдельных кластерах УИК

Гистограммы явок в отдельных кластерах УИК

Из гистограмм видно, что в первой группе (слева) распределения голосов и явки — красивые "колокола", похожие на гауссово распределение. Во второй группе распределение явки — тоже красивый колокол (за исключением пика в районе 100%), а вот распределения процентов голосов, отданных партиям — у всех, кроме КПРФ и ЕР сильно сдвинуты к нулю (на многих участках за эти партии вообще не голосовали), у "Яблока" отчётливо прослеживается ещё один горб.

Гистограммы процента ПЖиВ в отдельных кластерах УИК

Гистограммы процента ПЖиВ в отдельных кластерах УИК

Гистограммы процента КПРФ в отдельных кластерах УИК

Гистограммы процента КПРФ в отдельных кластерах УИК

Гистограммы процента ЛДПР в отдельных кластерах УИК

Гистограммы процента ЛДПР в отдельных кластерах УИК

Гистограммы процента СР в отдельных кластерах УИК

Гистограммы процента СР в отдельных кластерах УИК

Гистограммы процента Яблока в отдельных кластерах УИК

Гистограммы процента Яблока в отдельных кластерах УИК

То есть, если верить официальным властям, что выборы были честными и справедливыми, 28% процентов участков какие-то особые, там проживают граждане, которые немного реже ходят на выборы, вдвое реже голосуют за партию власти и заметно чаще поддерживают все остальные партии. Возможно, это и есть те самые элитные районы. Посмотрим, как эти УИК распределены по районам Москвы. Оказывается, что таких участков больше всего (почти 100%) в районах Зеленограда. Более 80% в Свиблово, Митино, Марьиной Роще, Ростокино, Ярославском районе и Южном Тушине. 60-80% в районах Южное и Северное Медведково, Хорошово-Мневники, Алексеевский, Ново-Переделкино, Останкинский, Теплый стан, Бабушкинский, Ломоносовский и Гагаринский. В Черемушках, Бибирево, Сокольниках и Отрадном буквально зреет гражданская война: половина участков резко поддерживает партию власти, а в другой половине — оппозицию. Казалось бы, Свиблово и Отрадное — спальные районы, находящиеся поблизости, однако в одном районе почти все участки "оппозиционные", а в другом fifty-fifty.

А вот что может быть общего у элитного района Куркино и нищебродской Капотни? У центрального Арбата и замкадского Косино-Ухтомского? У "мажорного" Крылатского трущоб Метрогородка? Оказывается, во всех этих районах нет вообще ни одного УИК с "оппозиционными" результатами. По карте распределения доходов легко видно, что результаты выборов с социальным положением по-видимому вообще не связаны. То есть получается, что результаты голосования практически не зависят ни от влияния партий (которое по всей Москве одинаковое), ни от условий, которые создаёт в городе местные и федеральные власти, ни от обеспеченности или классового положения москвичей. Точнее, наверняка всё это влияет, но есть некий фактор, который настолько силён, что с лихвой перекрывает влияние всех остальных.

Я материалист, в мистику и волшебство Чурова не верю. В то же время сколько ни опрашивал знакомых, даже аполитичных, все за редчайшим исключением уверяли, что голосовали за другие партии. И тогда мне пришло в голову единственное материалистическое объяснение столь странных результатов. Во всём виноваты... правильно, внеземные цивилизации! Они уже оккупировали почти две трети города, ходят среди нас, маскируются, и голосуют (нам назло) за жуликов и врунов. А если серьёзно, то если партии по всей Москве одинаковые, социальное положение влияет слабо, то получается, что сильнее всего на результаты влияют избирательные комиссии. Так получилось в этом году, что УИК оборудованные устройством автоматического считывания бюллетеней (КОИБ), в основном попали в "оппозиционную" группу. То же самое можно сказать и об участках, на которых были оппозиционные наблюдатели, и которых не выгнали члены УИК под каким-либо предлогом. Конечно, обмануть можно и внимательных наблюдателей, и электронику (например, с помощью "каруселей"), но такие вбросы относительно невелики, и их статистические свойства, возможно, близки к свойствам нормального распределения. То есть, статистическими методами их даже не заподозришь.

Конечно, можно предположить, что на самом деле структура Москвы несколько сложнее, и УИК делятся не на две, а на большее количество подмножеств. А с такой повышенной детализацией Куркино и Метрогородок уже будут сильно отличаться. Разобьём тем же алгоритмом крупные московские УИК не на 2, а на 3 кластера:

  1. Количество УИК: 896. Явка: 50,1%. Процент голосов: СР — 17,4%, ЛДПР — 13,0%, ПР — 1,8%, КПРФ — 25,7%, "Яблоко" - 14,3%, ЕР — 24,7%, ПД — 1,06%.
  2. Количество УИК: 1783. Явка: 63,5%. Процент голосов: СР — 11,5%, ЛДПР — 9,1%, ПР — 1,3%, КПРФ — 18,9%, "Яблоко" - 8,0%, ЕР — 48,7%, ПД — 0,78%.
  3. Количество УИК: 515. Явка: 71,7%. СР — 7,5%, ЛДПР — 6,1%, ПР — 0,89%, КПРФ — 13,2%, "Яблоко" - 3,4%, ЕР — 66,6%, ПД — 0,61%.

Распределение явки в разных подмножествах:

Гистограммы явок в отдельных кластерах УИК

Гистограммы явок в отдельных кластерах УИК

Как видно, во второй группе распределение явки всё еще похоже на нормальное, только немного шире и сдвинуто вправо. То есть, во второй группе в основном вбрасывали голоса за ПжиВ (если на участке с явкой 50% у партий ЕР и КПРФ было по 25% голосов, но фальсификаторы вбросили 13% бюллетеней за ЕР, то результаты будут составлять соответственно 40% и 20%), в меньшей степени перераспределяли, подгоняя результат поближе к "нужному". В третьей же группе, видимо, голоса никто даже не считал, а результаты рисовались от балды, т. к. там ни у явки, ни у голосов за партии нет ничего похожего на нормальное распределение. Что же касается распределения участков 2 и 3 типа по районам, то оказывается, что в Куркино и в Метрогородке, Арбате и Бирюлёво примерно одинаковые доли участков 3-го типа.

Какие из этого можно сделать выводы? Конечно, москвичи, проживающие в разных районах, имеющие разный уровень достатка и социальное положение, имеют различные политические предпочтения, и голосуют по-разному. Однако этот фактор — политические предпочтения граждан — оказывается совершенно несущественным, не оказывающим заметного влияния на результат голосования. Гораздо сильнее на результат влияет честность (или, если хотите, наглость) членов избирательных комиссий. Конечно, статистические расчёты и моделирование не могут являться доказательством обмана, никакой суд не примет их на рассмотрение (и будет, пожалуй, прав). Но в сочетании с реальными уликами, отчётами оппозиционных наблюдателей, расхождениями в протоколах избирательных комиссий, позволяет находить наиболее подозрительные места, в которых партийные жулики, вруны и их беспартийные помощники действовали наиболее нагло и бесцеремонно. Вполне возможно, что во второй группе московских УИКов при пересчёте голосов обнаружить большие подтасовки будет непросто, то в третьей группе они будут налицо.
=====================================
Предыдущие записи о выборах в России и статистике:

И снова математика и выборы
Статистика исследовала выборы
Мухлевать надо с умом (ПРдонам на заметку)
Tags: рассея
Subscribe
promo don_katalan december 29, 2014 14:39 113
Buy for 50 tokens
Расшифровка секретного плана адмиистративно-территориального устройства России после ее распада От гуляющих по сети различных вариантов "государственного" устройства будущего российских территорий отличается наличием территорий в совместном управлении, возвратом исторических территорий…
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments