a_shen | о статистике по голосованиям

мне казалось, что тут уже всё обсуждено, опубликовано и особых вопросов ни у кого нет, но выяснилось, что в связи с недавними "выборами Путина" граждане взволновались и, как я понял, полезно кратко объяснить ситуацию и дать ссылки

обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)

более поздние публикации - см. в

разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html

Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)

коротко про последнее "голосование" и "подсчёт"

1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)

2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%

Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)

Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.

Flat | Top-Level Comments Only

Разница в пп.1-2 из твоего предыдущего комментария.
Если пример с 71% и 35% кажется слишком тривиальным (там нет статистики), то можно вспомнить о математической экспертизе в делах о карточном шулерстве. Надеюсь, ты согласишься, что это намного более внятная ситуация, чем с выборами. Если аномалия состоит в приходе двух тузов в прикупе три раза подряд, то затруднительно сослаться на большое количество аномалий :)
То есть в случае карт ситуация контролируется количественно, а в случае пилы Чурова - лишь качественно.
Попробую еще иначе сказать. Здравый смысл в том или ином количестве необходим в любых приложениях статистики, это да (известная байка из Перельмана - наглядная тому иллюстрация). Но "доза" этого здравого смысла в разных утверждениях разная.
Эмпирически измерять эту дозу можно долей людей, которые способны высказывать здравые суждения по поводу тех или иных статистических данных.
Мои оценки примерно такие: если в случае с подбрасыванием монетки 100 раз подряд эта доля - десятки процентов, в случае с картами - 1-0.1 %, то в случае электоральных графиков - 0.1 - 0.01 % (и себя я в эту долю уже не включаю).

ну и с тузами - почему, собственно, другая комбинация (фиксированная), имеющая ту же вероятность, не кажется нам подозрительной? Потому что можно сказать, что при обсуждении гипотез "сверхвыгодные" комбинации приходят в голову в первую очередь (потому что имеют некоторое альтернативное объяснение), потому что их мало и т.п. То же самое и с выборами - "пила" приходит в голову, потому что она уже раньше наблюдалась, потому что она хорошо согласуется с определённым видом фальсификаций и т.п. Конечно, некоторая грамотность и здравый смысл нужны в обоих случаях, но, по-моему, не сильно разные...

С тузами ясно - интересуют комбинации, которые сильно влияют на результат и таких много меньше. Причем это "много" также вполне количественно оценивается. (На самом деле, в реальной экспертизе было несколько сложнее, но детали я не помню - читал об этом 30 лет назад.)
Пила - это некоторая форма. Определить, где заканчивается пила, а начинается случайный разброс, количественно намного сложнее. (Да еще существенно, что пила идет по целым процентам. В общем, я не берусь высказать сколь-нибудь разумную количественную гипотезу.)
Грамотность и здравый смысл проверить очень легко: достаточно генерировать обычное биномиальное распределение и смесь 0.9биномиальное +0.1распределение, сконцентрированное на арифметической прогрессии небольшой длины (5-10 пунктов) и спрашивать оценку испытуемого. Когда я писал выше оценки людей, способных к здравым суждениям, я имел в виду хороший результат в таком тесте (больше 95% правильных ответов).
Но экспериментов я не ставил, это правда :)
PS Если ставить эксперимент на людях, знакомых с теорвером, нужно, конечно, чуть хитрее генерировать распределения - думаю, что при известной паре распределений я такой тест пройду. Но если немного изменить условия неизвестным мне способом - вряд ли.

Ну, реальная экспертиза про тузы тоже довольно расплывчатая - я не знаю правил, но, наверно, разные комбинации можно использовать разными хитрыми способами. Про "пилу" на самом деле можно посчитать просто преобразование Фурье и увидеть пики на 5% и 1%. Но, мне кажется, что достаточно посмотреть на картинки, чтобы идея, что такое может получиться при соблюдении правил, показалась совершенно невероятной...

о статистике по голосованиям

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно