a_shen

мне казалось, что тут уже всё обсуждено, опубликовано и особых вопросов ни у кого нет, но выяснилось, что в связи с недавними "выборами Путина" граждане взволновались и, как я понял, полезно кратко объяснить ситуацию и дать ссылки

обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)

более поздние публикации - см. в

разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html

Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)

коротко про последнее "голосование" и "подсчёт"

1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)

2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%

Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)

Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.

Flat | Top-Level Comments Only

From:

mnvyy

Каков характер этих рассуждений? Есть два разных варианта.
(I) Мы знаем, что выборы фальсифицированы и имеем правдоподобные гипотезы о механизмах фальсификаций. Используя эти знания, мы можем продемонстрировать статистические аномалии, обусловленные этими механизмами.
(Симметрично: если мы знаем, что выборы проведены достаточно честно, то для статистических аномалий возможно подобрать другие объяснения, не опирающиеся на гипотезу о фальсификациях.)
(II) Есть метод, который позволяет отвечать на вопрос "были ли фальсификации?" только на основе графиков (сколь угодно подробных, с историей вопроса и что там еще требуется), но без использования знаний о стране, правилах проведения голосования, возможных механизмов фальсификаций и т.п.
Я так и не понял из твоих объяснений, какой вариант ты отстаиваешь. Вроде бы (I)? Тогда вопросов пока больше нет.
Если всё же (II), то замечу, что обоснованию метода не хватает столь же подробного анализа заведомо негативного примера (когда фальсификаций не было). Скажем, выборы президента США 2008 года - хороший пример для демонстрации возможностей метода. Там и негауссова кривая, и пики. Вот и хорошо бы понять, как "математика" позволяет без апелляций к сути происходящего различить эти выборы и выборы в ГД 2011, скажем.

From:

a_shen

Повторю то, что сказал в другом месте: без использования правил голосования, конечно, никакие числа не могут быть фальсификацией, так как правила голосования предполагаются произвольными. Но, наверное, ты всё-таки имел в виду что-то другое. Тогда, если какую-то информацию о правилах считать известной (что там должны считать пришедших людей и эти
количества записывать без всяких преобразований и округлений), то верно (II) - никакой гипотезы, кроме фальсификаций, для пилы никем не предлагалось

From:

a_shen

From:

mnvyy

Нет, насколько я могу судить, не на кратных процентах. (Хотя на глаз похоже на арифметическую прогрессию, но это несерьёзно - я ничего не считал.)
Хорошо, давай это зафиксируем: если на графике плотности результатов голосования есть выбросы на кратных процентах (в каком интервале? скажем, 5 точек подряд? или 10?), то выборы следует считать фальсифицированными даже при отсутствии рапортов наблюдателей о нарушениях и хорошей репутации страны проведения (в смысле честности подсчёта). "Запомните это твит" :)
PS На всякий случай уточню: я тоже уверен, что ничем кроме фальсификаций такую аномалию объяснить нельзя. Но жизнь полна сюрпризов и тайн.

From:

a_shen

1) В статистике, даже в совсем простых случаях, нельзя указать границу, начиная с которой один диагноз сменяется другим.

2) В наиболее формальных ситуациях речь может идти об оценке p-value - вероятности появления указанной аномалии при нулевой гипотезе

3) На практике точное значение p-value не имеет смысла, потому что возможно много разных аномалий, и если одна из их имеет малую вероятность, но случилась, то если эта одна выбиралась среди очень большого числа, то это ничего не значит. Собственно, поэтому философское обоснование статистики ссылается на колмогоровскую сложность.

4) Но и это не даёт никаких чисел, потому что сложность определена с точностью до константы, так что реально применение статистики исходит из некоторого здравого смысла. В данном случае, мне кажется, тут ответ однозначный.

5) Да, конечно, можно запомнить. Явление выбросов на "круглых числах" в разных ситуациях появляется (одну очень интересную, кстати, обнаружил Шалунов, надеюсь, он про это напишет), но я охотно подтверждаю, что если ты обнаружишь на каких-то других выборах что-то, что на твой взгляд будет столь же удивительными выбросами на круглых числах, то независимо от страны это будет очевидным свидетельством нарушения процедуры.

From:

mnvyy

На мой взгляд это означает, что и для пилы ты придерживаешься (I), а не (II). Просто с очень высокой степенью уверенности в утверждении.
Думаю, что ты всё же согласишься, что это далеко не та степень уверенности, с которой мы утверждаем ложность высказывания "один кандидат набрал 71%, а другой - 35%".

From:

a_shen

я не понимаю, видимо, в чём ты видишь разницу между 1 и 2, раз ты так говоришь. Конечно, математическая статистика не даёт результатов, которые можно считать теоремами: увидев, что монета выдаёт первые 100 битов числа \pi, мы не можем считать "математически доказанным", что "эта монета не случайная" (да и само высказывание не математическое). Примерно то же самое и здесь - но это ситуация совершенно стандартная в применениях статистики, где проверяется какая-то гипотеза. Так или иначе, с пилой никаких вариантов гипотез, это объясняющих, никто не предъявлял, кроме нарушения правил. Аналогично со статистикой последних цифр. С разными другими графиками evidence, помимо статистики, включает другие свидетельства (сравнение по годам, сравнение с наблюдателями, сравнение с КОИБ и т.п.), сведения о разных социально-экономических характеристиках районов и т.п. Но и цель тут более сложная - помимо самого факта фальсификаций, дать оценку их размера по порядку величины. По-моему, тут всё совершенно ясно...

From:

mnvyy

Разница в пп.1-2 из твоего предыдущего комментария.
Если пример с 71% и 35% кажется слишком тривиальным (там нет статистики), то можно вспомнить о математической экспертизе в делах о карточном шулерстве. Надеюсь, ты согласишься, что это намного более внятная ситуация, чем с выборами. Если аномалия состоит в приходе двух тузов в прикупе три раза подряд, то затруднительно сослаться на большое количество аномалий :)
То есть в случае карт ситуация контролируется количественно, а в случае пилы Чурова - лишь качественно.
Попробую еще иначе сказать. Здравый смысл в том или ином количестве необходим в любых приложениях статистики, это да (известная байка из Перельмана - наглядная тому иллюстрация). Но "доза" этого здравого смысла в разных утверждениях разная.
Эмпирически измерять эту дозу можно долей людей, которые способны высказывать здравые суждения по поводу тех или иных статистических данных.
Мои оценки примерно такие: если в случае с подбрасыванием монетки 100 раз подряд эта доля - десятки процентов, в случае с картами - 1-0.1 %, то в случае электоральных графиков - 0.1 - 0.01 % (и себя я в эту долю уже не включаю).

From:

a_shen

ну и с тузами - почему, собственно, другая комбинация (фиксированная), имеющая ту же вероятность, не кажется нам подозрительной? Потому что можно сказать, что при обсуждении гипотез "сверхвыгодные" комбинации приходят в голову в первую очередь (потому что имеют некоторое альтернативное объяснение), потому что их мало и т.п. То же самое и с выборами - "пила" приходит в голову, потому что она уже раньше наблюдалась, потому что она хорошо согласуется с определённым видом фальсификаций и т.п. Конечно, некоторая грамотность и здравый смысл нужны в обоих случаях, но, по-моему, не сильно разные...

From:

mnvyy

С тузами ясно - интересуют комбинации, которые сильно влияют на результат и таких много меньше. Причем это "много" также вполне количественно оценивается. (На самом деле, в реальной экспертизе было несколько сложнее, но детали я не помню - читал об этом 30 лет назад.)
Пила - это некоторая форма. Определить, где заканчивается пила, а начинается случайный разброс, количественно намного сложнее. (Да еще существенно, что пила идет по целым процентам. В общем, я не берусь высказать сколь-нибудь разумную количественную гипотезу.)
Грамотность и здравый смысл проверить очень легко: достаточно генерировать обычное биномиальное распределение и смесь 0.9биномиальное +0.1распределение, сконцентрированное на арифметической прогрессии небольшой длины (5-10 пунктов) и спрашивать оценку испытуемого. Когда я писал выше оценки людей, способных к здравым суждениям, я имел в виду хороший результат в таком тесте (больше 95% правильных ответов).
Но экспериментов я не ставил, это правда :)
PS Если ставить эксперимент на людях, знакомых с теорвером, нужно, конечно, чуть хитрее генерировать распределения - думаю, что при известной паре распределений я такой тест пройду. Но если немного изменить условия неизвестным мне способом - вряд ли.

From:

a_shen

Ну, реальная экспертиза про тузы тоже довольно расплывчатая - я не знаю правил, но, наверно, разные комбинации можно использовать разными хитрыми способами. Про "пилу" на самом деле можно посчитать просто преобразование Фурье и увидеть пики на 5% и 1%. Но, мне кажется, что достаточно посмотреть на картинки, чтобы идея, что такое может получиться при соблюдении правил, показалась совершенно невероятной...

Flat | Top-Level Comments Only

Profile

a_shen

August 2024

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Page Summary

mnvyy - Непонятно

Style Credit

Style: Able Constructs for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Jul. 1st, 2025 09:25 pm

о статистике по голосованиям

о статистике по голосованиям

Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Re: Непонятно

Profile

August 2024

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags