о статистике по голосованиям
Mar. 23rd, 2018 07:19 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
мне казалось, что тут уже всё обсуждено, опубликовано и особых вопросов ни у кого нет, но выяснилось, что в связи с недавними "выборами Путина" граждане взволновались и, как я понял, полезно кратко объяснить ситуацию и дать ссылки
обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)
более поздние публикации - см. в
разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html
Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)
коротко про последнее "голосование" и "подсчёт"
1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)
2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%
Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)
Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.
обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)
более поздние публикации - см. в
разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html
Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)
коротко про последнее "голосование" и "подсчёт"
1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)
2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%
Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)
Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.
Непонятно
Date: 2018-03-24 07:25 am (UTC)(I) Мы знаем, что выборы фальсифицированы и имеем правдоподобные гипотезы о механизмах фальсификаций. Используя эти знания, мы можем продемонстрировать статистические аномалии, обусловленные этими механизмами.
(Симметрично: если мы знаем, что выборы проведены достаточно честно, то для статистических аномалий возможно подобрать другие объяснения, не опирающиеся на гипотезу о фальсификациях.)
(II) Есть метод, который позволяет отвечать на вопрос "были ли фальсификации?" только на основе графиков (сколь угодно подробных, с историей вопроса и что там еще требуется), но без использования знаний о стране, правилах проведения голосования, возможных механизмов фальсификаций и т.п.
Я так и не понял из твоих объяснений, какой вариант ты отстаиваешь. Вроде бы (I)? Тогда вопросов пока больше нет.
Если всё же (II), то замечу, что обоснованию метода не хватает столь же подробного анализа заведомо негативного примера (когда фальсификаций не было). Скажем, выборы президента США 2008 года - хороший пример для демонстрации возможностей метода. Там и негауссова кривая, и пики. Вот и хорошо бы понять, как "математика" позволяет без апелляций к сути происходящего различить эти выборы и выборы в ГД 2011, скажем.
Re: Непонятно
Date: 2018-03-24 08:43 pm (UTC)количества записывать без всяких преобразований и округлений), то верно (II) - никакой гипотезы, кроме фальсификаций, для пилы никем не предлагалось
Re: Непонятно
Date: 2018-03-24 08:45 pm (UTC)количества записывать без всяких преобразований и округлений), то верно (II) - никакой гипотезы, кроме фальсификаций, для пилы никем не предлагалось и вроде как ничего такого на выборах 2008 в США не было, или пила (выбросы на кратных процентах) была?
Re: Непонятно
Date: 2018-03-25 04:40 am (UTC)Хорошо, давай это зафиксируем: если на графике плотности результатов голосования есть выбросы на кратных процентах (в каком интервале? скажем, 5 точек подряд? или 10?), то выборы следует считать фальсифицированными даже при отсутствии рапортов наблюдателей о нарушениях и хорошей репутации страны проведения (в смысле честности подсчёта). "Запомните это твит" :)
PS На всякий случай уточню: я тоже уверен, что ничем кроме фальсификаций такую аномалию объяснить нельзя. Но жизнь полна сюрпризов и тайн.
Re: Непонятно
Date: 2018-03-25 10:06 am (UTC)2) В наиболее формальных ситуациях речь может идти об оценке p-value - вероятности появления указанной аномалии при нулевой гипотезе
3) На практике точное значение p-value не имеет смысла, потому что возможно много разных аномалий, и если одна из их имеет малую вероятность, но случилась, то если эта одна выбиралась среди очень большого числа, то это ничего не значит. Собственно, поэтому философское обоснование статистики ссылается на колмогоровскую сложность.
4) Но и это не даёт никаких чисел, потому что сложность определена с точностью до константы, так что реально применение статистики исходит из некоторого здравого смысла. В данном случае, мне кажется, тут ответ однозначный.
5) Да, конечно, можно запомнить. Явление выбросов на "круглых числах" в разных ситуациях появляется (одну очень интересную, кстати, обнаружил Шалунов, надеюсь, он про это напишет), но я охотно подтверждаю, что если ты обнаружишь на каких-то других выборах что-то, что на твой взгляд будет столь же удивительными выбросами на круглых числах, то независимо от страны это будет очевидным свидетельством нарушения процедуры.
Re: Непонятно
Date: 2018-03-25 11:50 am (UTC)Думаю, что ты всё же согласишься, что это далеко не та степень уверенности, с которой мы утверждаем ложность высказывания "один кандидат набрал 71%, а другой - 35%".
Re: Непонятно
Date: 2018-03-25 12:59 pm (UTC)Re: Непонятно
Date: 2018-03-25 02:00 pm (UTC)Если пример с 71% и 35% кажется слишком тривиальным (там нет статистики), то можно вспомнить о математической экспертизе в делах о карточном шулерстве. Надеюсь, ты согласишься, что это намного более внятная ситуация, чем с выборами. Если аномалия состоит в приходе двух тузов в прикупе три раза подряд, то затруднительно сослаться на большое количество аномалий :)
То есть в случае карт ситуация контролируется количественно, а в случае пилы Чурова - лишь качественно.
Попробую еще иначе сказать. Здравый смысл в том или ином количестве необходим в любых приложениях статистики, это да (известная байка из Перельмана - наглядная тому иллюстрация). Но "доза" этого здравого смысла в разных утверждениях разная.
Эмпирически измерять эту дозу можно долей людей, которые способны высказывать здравые суждения по поводу тех или иных статистических данных.
Мои оценки примерно такие: если в случае с подбрасыванием монетки 100 раз подряд эта доля - десятки процентов, в случае с картами - 1-0.1 %, то в случае электоральных графиков - 0.1 - 0.01 % (и себя я в эту долю уже не включаю).
Re: Непонятно
Date: 2018-03-25 02:18 pm (UTC)Re: Непонятно
Date: 2018-03-25 03:25 pm (UTC)Пила - это некоторая форма. Определить, где заканчивается пила, а начинается случайный разброс, количественно намного сложнее. (Да еще существенно, что пила идет по целым процентам. В общем, я не берусь высказать сколь-нибудь разумную количественную гипотезу.)
Грамотность и здравый смысл проверить очень легко: достаточно генерировать обычное биномиальное распределение и смесь 0.9биномиальное +0.1распределение, сконцентрированное на арифметической прогрессии небольшой длины (5-10 пунктов) и спрашивать оценку испытуемого. Когда я писал выше оценки людей, способных к здравым суждениям, я имел в виду хороший результат в таком тесте (больше 95% правильных ответов).
Но экспериментов я не ставил, это правда :)
PS Если ставить эксперимент на людях, знакомых с теорвером, нужно, конечно, чуть хитрее генерировать распределения - думаю, что при известной паре распределений я такой тест пройду. Но если немного изменить условия неизвестным мне способом - вряд ли.
Re: Непонятно
Date: 2018-03-26 02:25 pm (UTC)