о статистике по голосованиям
Mar. 23rd, 2018 07:19 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
мне казалось, что тут уже всё обсуждено, опубликовано и особых вопросов ни у кого нет, но выяснилось, что в связи с недавними "выборами Путина" граждане взволновались и, как я понял, полезно кратко объяснить ситуацию и дать ссылки
обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)
более поздние публикации - см. в
разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html
Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)
коротко про последнее "голосование" и "подсчёт"
1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)
2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%
Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)
Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.
обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)
более поздние публикации - см. в
разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html
Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)
коротко про последнее "голосование" и "подсчёт"
1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)
2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%
Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)
Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.
Re: Непонятно
Date: 2018-03-24 08:43 pm (UTC)количества записывать без всяких преобразований и округлений), то верно (II) - никакой гипотезы, кроме фальсификаций, для пилы никем не предлагалось