[personal profile] a_shen
мне казалось, что тут уже всё обсуждено, опубликовано и особых вопросов ни у кого нет, но выяснилось, что в связи с недавними "выборами Путина" граждане взволновались и, как я понял, полезно кратко объяснить ситуацию и дать ссылки

обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)

более поздние публикации - см. в

разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html

Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)

коротко про последнее "голосование" и "подсчёт"

1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)

2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%

Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)

Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.

Непонятно

Date: 2018-03-24 07:25 am (UTC)
mnvyy: (pic#12178415)
From: [personal profile] mnvyy
Каков характер этих рассуждений? Есть два разных варианта.
(I) Мы знаем, что выборы фальсифицированы и имеем правдоподобные гипотезы о механизмах фальсификаций. Используя эти знания, мы можем продемонстрировать статистические аномалии, обусловленные этими механизмами.
(Симметрично: если мы знаем, что выборы проведены достаточно честно, то для статистических аномалий возможно подобрать другие объяснения, не опирающиеся на гипотезу о фальсификациях.)
(II) Есть метод, который позволяет отвечать на вопрос "были ли фальсификации?" только на основе графиков (сколь угодно подробных, с историей вопроса и что там еще требуется), но без использования знаний о стране, правилах проведения голосования, возможных механизмов фальсификаций и т.п.
Я так и не понял из твоих объяснений, какой вариант ты отстаиваешь. Вроде бы (I)? Тогда вопросов пока больше нет.
Если всё же (II), то замечу, что обоснованию метода не хватает столь же подробного анализа заведомо негативного примера (когда фальсификаций не было). Скажем, выборы президента США 2008 года - хороший пример для демонстрации возможностей метода. Там и негауссова кривая, и пики. Вот и хорошо бы понять, как "математика" позволяет без апелляций к сути происходящего различить эти выборы и выборы в ГД 2011, скажем.

Re: Непонятно

Date: 2018-03-25 04:40 am (UTC)
mnvyy: (Default)
From: [personal profile] mnvyy
Нет, насколько я могу судить, не на кратных процентах. (Хотя на глаз похоже на арифметическую прогрессию, но это несерьёзно - я ничего не считал.)
Хорошо, давай это зафиксируем: если на графике плотности результатов голосования есть выбросы на кратных процентах (в каком интервале? скажем, 5 точек подряд? или 10?), то выборы следует считать фальсифицированными даже при отсутствии рапортов наблюдателей о нарушениях и хорошей репутации страны проведения (в смысле честности подсчёта). "Запомните это твит" :)
PS На всякий случай уточню: я тоже уверен, что ничем кроме фальсификаций такую аномалию объяснить нельзя. Но жизнь полна сюрпризов и тайн.

Re: Непонятно

Date: 2018-03-25 11:50 am (UTC)
mnvyy: (Default)
From: [personal profile] mnvyy
На мой взгляд это означает, что и для пилы ты придерживаешься (I), а не (II). Просто с очень высокой степенью уверенности в утверждении.
Думаю, что ты всё же согласишься, что это далеко не та степень уверенности, с которой мы утверждаем ложность высказывания "один кандидат набрал 71%, а другой - 35%".

Re: Непонятно

Date: 2018-03-25 02:00 pm (UTC)
mnvyy: (Default)
From: [personal profile] mnvyy
Разница в пп.1-2 из твоего предыдущего комментария.
Если пример с 71% и 35% кажется слишком тривиальным (там нет статистики), то можно вспомнить о математической экспертизе в делах о карточном шулерстве. Надеюсь, ты согласишься, что это намного более внятная ситуация, чем с выборами. Если аномалия состоит в приходе двух тузов в прикупе три раза подряд, то затруднительно сослаться на большое количество аномалий :)
То есть в случае карт ситуация контролируется количественно, а в случае пилы Чурова - лишь качественно.
Попробую еще иначе сказать. Здравый смысл в том или ином количестве необходим в любых приложениях статистики, это да (известная байка из Перельмана - наглядная тому иллюстрация). Но "доза" этого здравого смысла в разных утверждениях разная.
Эмпирически измерять эту дозу можно долей людей, которые способны высказывать здравые суждения по поводу тех или иных статистических данных.
Мои оценки примерно такие: если в случае с подбрасыванием монетки 100 раз подряд эта доля - десятки процентов, в случае с картами - 1-0.1 %, то в случае электоральных графиков - 0.1 - 0.01 % (и себя я в эту долю уже не включаю).

Re: Непонятно

Date: 2018-03-25 03:25 pm (UTC)
mnvyy: (Default)
From: [personal profile] mnvyy
С тузами ясно - интересуют комбинации, которые сильно влияют на результат и таких много меньше. Причем это "много" также вполне количественно оценивается. (На самом деле, в реальной экспертизе было несколько сложнее, но детали я не помню - читал об этом 30 лет назад.)
Пила - это некоторая форма. Определить, где заканчивается пила, а начинается случайный разброс, количественно намного сложнее. (Да еще существенно, что пила идет по целым процентам. В общем, я не берусь высказать сколь-нибудь разумную количественную гипотезу.)
Грамотность и здравый смысл проверить очень легко: достаточно генерировать обычное биномиальное распределение и смесь 0.9биномиальное +0.1распределение, сконцентрированное на арифметической прогрессии небольшой длины (5-10 пунктов) и спрашивать оценку испытуемого. Когда я писал выше оценки людей, способных к здравым суждениям, я имел в виду хороший результат в таком тесте (больше 95% правильных ответов).
Но экспериментов я не ставил, это правда :)
PS Если ставить эксперимент на людях, знакомых с теорвером, нужно, конечно, чуть хитрее генерировать распределения - думаю, что при известной паре распределений я такой тест пройду. Но если немного изменить условия неизвестным мне способом - вряд ли.

Profile

a_shen

August 2024

S M T W T F S
    123
45678910
111213141516 17
18192021222324
25262728293031

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 1st, 2025 09:25 pm
Powered by Dreamwidth Studios