[personal profile] a_shen
который один из "четырёх русских" в соответствующем алгоритме, участвовал в разработке шахматных программ и пр.

В своё время он опубликовал (вместе с Чуровым и Соловьёвым) опубликовал статью с критикой применения Шпилькиным статистических методов для анализа выборов, где были приведены статистические данные по "25 регионам". Ещё тогда ошибки в анализе и (главное) отсутствие списка регионов или принципов их отбора вызывали подозрения в недобросовестности авторов (см. ссылки, подробности и обсуждение в http://arxiv.org/abs/1204.0307). Сейчас один из авторов статьи (Соловьёв) предоставил М.Пшеничникову список регионов, так что стало возможным проверить эти подозрения - и, на мой взгляд они подтвердились, что называется beyond the reasonable doubt: http://oude-rus.livejournal.com/672723.html. Сочетание результатов сравнения с текстом статьи, на мой взгляд, не может быть объяснено ничем, кроме сознательного жульничества со стороны Арлазарова и К. А жаль - он всё-таки был один из не таких многочисленных заслуженно известных представителей советской computer science, а вот поди ж ты - таки "встал с колен"...

Date: 2013-03-30 06:08 am (UTC)
From: [identity profile] slonopas.livejournal.com
А для 25 отобранных регионов выводы Ардазарова верны?

Date: 2013-03-30 10:59 am (UTC)
From: [identity profile] taki-net.livejournal.com
Смотря что называть "выводами". Что на этой выборке не наблюдается сильных фальсификаций - не наблюдается исходя из статистических критериев - почти верно. Но это примерно как прокурор на процессе докажет, что потерпевший перед началом обеда был здоров, а по окончании отравлен, а защита вызовет эксперта, который докажет, что одно из 4 блюд не отравлено, и на этом основании объявит обвинение опровергнутым. Адвокат-то имеет на это моральное право, а вот эксперт свою научную репутацию перечеркнет.

Date: 2013-03-30 11:19 am (UTC)
From: [identity profile] http://users.livejournal.com/_winnie/
Ошибка отбора - это очень тонкая ошибка, которую слегко сделать даже случайно, и не-статистик её не заметит.

А уж если злоупотреблять ей осознанно..

Самые крупные апельсины больше самых мелких арбузов, и можно отбором доказать, что апельсины в этом супермаркете - больше арбуза.

Если студент на экзамене заранее знает любимые вопросы экзаментора и видел как разложили билеты - он может создать впечатление что знает весь курс, хотя выучил только 5%
Edited Date: 2013-03-30 11:22 am (UTC)

Date: 2013-03-30 06:35 pm (UTC)
From: [identity profile] a-shen.livejournal.com
Прочитайте статью Арлазарова и К, она есть в интернете. Она представляет собой критику работ Шпилькина и др. по поводу статистического анализа выборов, в которых анализировались данные по всей России. В такой ситуации авторы отвечают за репрезентативность своей выборки (соответствие совокупности, рассмотренной в критикуемых работах) - или должны писать работу другого жанра - говорить, что если ограничиться подмножеством, выбранным по таким-то принципам, то результаты будут другими (и, естественно, указывать эти принципы - иначе работа не имеет смысла). В любом другом случае это либо безграмотность, либо сознательное жульничество. (Второе по разным причинам кажется мне более вероятным, но это можно обсуждать отдельно.)

Думаю, что Вы с этими базовыми принципами статистического анализа согласны. Скажем, если в какой-то работе говорится об эффективности лекарства на какой-то выборке, то критиковать её, анализируя подвыборку, в которую попали в основном тяжёлые больные, некорректно, и с этим, по-моему, должны согласиться грамотные люди независимо от их политических взглядов...

Date: 2013-03-30 06:46 pm (UTC)
From: [identity profile] slonopas.livejournal.com
Уточню контекст своего вопроса:
1) я слышал о подгонке результатов голосования от знакомых наблюдателей (занятно, что на этих участках незначительно уменьшали голоса за Путина до правильных цифр), и не сомневаюсь в наличии искажений
2) интересен масштаб; если есть 25 регионов без искажений, это интересно - собственно, можно ли интерпретировать их результаты хотя бы таким образом.

Date: 2013-03-30 08:14 pm (UTC)
From: [identity profile] a-shen.livejournal.com
Речь идёт о выборах прошлых годов, там был не Путин, а Медведев.

Оценка масштаба фальсификаций статистическими методами неизбежно довольно грубая, и, собственно, попытки таких оценок разными методами и составляли содержание многих статистических работ (Шпилькин, Пшеничников, Кобак и другие). В частности, они сравнивали и результаты по разным регионам. Такие же данные есть, как я понимаю, и для выборов Медведева (о которых шла речь у Арлазарова и К), в принципе, все эти методы можно применять и к ним (и Пшеничников об этом пишет). Но чем тут может быть полезна статья А.?

Date: 2013-03-30 09:36 am (UTC)
From: [identity profile] profnes.livejournal.com
Но бороду сбрил, помню, еще задолго до обещаний соавтора.

Date: 2013-03-30 08:56 pm (UTC)
From: [identity profile] xgrbml.livejournal.com
Ты уверен, что стоит загружать arxiv политическими статьями, да еще и по-русски? Если завтра китаец туда зафигачит что-ниубдь на своем родном языке про официальную vs статистику экономического роста КНР?

По-моему, данный ресурс предназначен, мягко говоря, для совсем другого.

Date: 2013-03-30 09:29 pm (UTC)
From: [identity profile] a-shen.livejournal.com
??? мне казалось (и сейчас я посмотрел, и вроде так и есть), что там есть даже специальные разделы, посвящённые статистике реальных данных, и обзоры там тоже бывают, и они явно допускают другие языки - в чём, собственно, проблема (и у кого)? хранение файлов им обходится сравнительно недорого, и выложить на постоянное хранение текст, чтобы потом на него ссылаться - ровно то, для чего arxiv создан.

Date: 2013-03-30 09:46 pm (UTC)
From: [identity profile] a-shen.livejournal.com
вот даже конкретно на тему выборов: http://arxiv.org/abs/1211.0938 (и это далеко не единственный случай)

Date: 2013-04-01 02:37 am (UTC)
From: [identity profile] xgrbml.livejournal.com
Да, тогда половина моих претензий отпадает.

Date: 2013-03-31 09:55 am (UTC)
From: [identity profile] dimpas.livejournal.com
Мда, что ж это Влад (бывший начальник, как-никак) на старости лет такой фигней занялся? Да и в статистике он вроде никогда силен не был...

Date: 2013-03-31 11:09 am (UTC)
From: [identity profile] a-shen.livejournal.com
Ну, тут можно разводить конспирологию, скажем, отметить, что фирма Cognitive technologies, в которой он работал, кажется, имела какие-то госзаказы (чуть ли не по распознаванию бланков). Но всё же ясно, что это в каком-то смысле добровольное поведение, вряд ли речь шла о "голодной смерти" даже в самом слабом смысле этого слова, поэтому грустно.

Date: 2013-03-31 02:15 pm (UTC)
From: [identity profile] dimpas.livejournal.com
Влад был зав. отделом в (бывшем) ВНИИСИ, отделом, который занимался софтом, разрабатывал небезызвестную СУБД ИНЭС, да и Cognitive Technologies от этого отдела отличается слабо, как мне кажется...
Так что, наверно, его попросил кто-то, кому он не мог отказать.
Ну или он решил заработать на персональный самолет :)

Date: 2013-04-01 05:27 am (UTC)
From: [identity profile] itman.livejournal.com
Выборы 2011 года стали предметом оживлённого обсуждения, в том числе на ми-
тингах и в интернете. К сожалению, значительная часть обсуждений основана на
недоразумениях: многие сторонники гипотезы фальсификаций не понимают слож-
ностей статистического анализа и приводят доводы типа «раз распределение не по
Гауссу — значит жулики». С другой стороны, многие их оппоненты, справедливо
указывая на необоснованность таких доводов, ограничиваются этим и не знакомятся
с реальными аргументами в пользу гипотезы фальсификации.


А как, вообще, народ проверял "по Гауссу". В статистике, разумеется, ничего нельзя доказать. Во фриквентистской можно опровергнуть нуль гипотезу с таким-то p-value, построить интервал. Но все не это более, чем подстраховка на случай: если мы провели анализ эн-выборов, в ста тысячах случаев считаем, что случилось мошенничество, возможно что в пяти тысячах случаев наши выводы не верны. А у нас единственные выборы. Уж не знаю легче ли Байзианцам, но у них такой страшный prior, что одних выборов точно будет недостаточно его преломить :-)

Date: 2013-04-01 06:11 am (UTC)
From: [identity profile] a-shen.livejournal.com
Не уверен, что понимаю вопрос - подробно можно прочитать по ссылкам в приведённом обзоре. Если совсем коротко - странная форма гистограммы явки в России (которая во многих странах похожа на нормальное распределение) приводилась как довод в пользу фальсификаций. Критики (справедливо) указали, что в других странах тоже бывают далёкие от нормального распределения гистограммы явки, и предложили объяснения (пространственная и социальная неоднородность) и нужны дополнительные проверки, одной формы недостаточно. Которые и были проделаны разными способами - и судя по всему, большая часть такого отклонения кривой от нормального распределения связана с фальсификациями.

Date: 2013-04-01 06:20 am (UTC)
From: [identity profile] itman.livejournal.com
Ну там, все-таки много читать. :-) Невозможно, ИМХО, доказать отклонение от нормальности. Можно с какой-то степени уверенности утверждать, что распределение не нормально и проводить дополнительные проверки. Только я боюсь, что в данном случае проверки должны быть отнюдь не статистические.

Date: 2013-04-01 06:56 pm (UTC)
From: [identity profile] a-shen.livejournal.com
1) Убедительность фактических данных как раз и связана с их разнообразием - тут не математика, и что-то "доказать" нельзя, нужно много независимых подтверждений.

2) Разумеется, гистограмма не совпадает (ни в одной стране) в точности с нормальным распределением, речь идёт о сравнении их форм в разных странах и в разное время, а также анализе по частям. См. подробно в том самом обзоре, где много читать, и по ссылкам, где читать ещё больше.

Date: 2013-04-01 07:15 am (UTC)
From: [identity profile] russhatter.livejournal.com
1. которая во многих странах похожа на нормальное распределение
Да, вот это место, именно это. Можно его поточнее? Мне почему-то кажется, что нельзя.

2. Можешь ли ты привести пример корректного и точного вывода, который хоть как-то может быть применён вне этой деятельности? То есть, оно конечно: можно брать данные и применять к ним методы. Вопрос: зачем это делать? Мне почему-то кажется, что эту процедура осмысленна только в связке с демагогией.
Edited Date: 2013-04-01 07:16 am (UTC)

Date: 2013-04-02 11:50 am (UTC)
From: [identity profile] a-shen.livejournal.com
1. Насколько кривые можно описать словами - и коротко (см. подробности в обзоре): по различным выборам в России были построены гистограммы явки, которые в 1990-е были похожи на нормальное распределение, а в 2000-х стали менее похожи. Мягков и К, затем Шпилькин и другие обратили на это внимание, предположив, что это изменение связано с увеличением фальсификаций. Им возражали (в том числе Арлазаров и К) - в том числе приводили (правильные) примеры далёких от нормальных распределений в некоторых странах, а также (тоже правильно) указывали, что такие гистограммы естественно получаются при наличии существенных неоднородностей (социально-территориальных). Ещё из правильной критики - что один из острых пиков (50%) вообще связан с округлением. Соответственно Шпилькин и др. провели более детальный анализ данных (по отдельным территориям, в других представлениях), который подтвердил скорее их предположения. Наконец, в 2012 г., уже после этих обсуждений, появились данные по голосованию за президента, которые ещё раз подтвердили, что Шпилькин и К были правы (а теперь вот появился ещё разбор данных Арлазарова). Дальше, по-моему, надо уже смотреть кривые самому, если тебе это интересно.

2. Смысл этих статистических работ, IMHO - во-первых, это сравнение на довольно большом материале, в котором есть и нестатистические данные (протоколы наблюдателей, видео и пр.), разных методов визуализации данных; во-вторых, по-моему, вообще полезно в исторических и не только целях осознавать и фиксировать происходящее.

Profile

a_shen

August 2024

S M T W T F S
    123
45678910
111213141516 17
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 22nd, 2026 08:06 am
Powered by Dreamwidth Studios