a_shen ([personal profile] a_shen) wrote2019-09-03 04:39 pm

навстречу "выборам": техническое

Предполагается, что во время "выборов" 8 сентября в Москве будут производиться видеотрансляции с участков, часть из которых можно будет записать и просмотреть для сравнения с официальными "результатами". Чтобы выборка была статистически значимой, нужно, чтобы список просмотра был независим от результатов "выборов". С этой целью меня попросили произвести рандомизацию. В имеющий список московских участков (в формате csv) была добавлена колонка случайных целых чисел, которую предполагается использовать так: для выборки из множества участков какой-то категории все участки этой категории упорядочиваются по возрастанию чисел в этой колонке, и берётся начальный отрезок упорядоченного списка (длина которого определяется техническими возможностями просмотра).

Эта колонка была сгенерирована с помощью hardware random source TrueRNG3 (простое USB-устройство), случайные биты были извлечены с помощью программы с сайта ubld.it его изготовителя, и добавлены в первую колонку csv-файла простой программой на питоне под наблюдением Андрея Ромащенко.

Результирующий файл output.csv был сжат архиваторами gzip и zip, и к полученным файлам была применена функция md5sum

8060d2f6d4d5726b0e7eb515fc96ff70 output.csv.gz
87c15fc49f6c1c686ff86a3fba499dea randomized.zip

Сам файл output.csv будет опубликован только после "выборов" (с целью сохранения независимости выборки и результатов)

Post a comment in response:

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting