Обычные люди редко признают свои ошибки. Еще реже делятся тем, что искали подтверждение своей точки зрения, а нашли опровержение. Это не тот случай. Ниже последует подробный рассказ о том, как я пытался обнаружить статистические признаки манипуляций на прошлогодних выборах президента США, нашел их, но потом потерял. По техническим причинам здесь он приведен без картинок и ссылок. Полный текст с иллюстрациями размещен на моем сайте https://alexandrov.works/ru/all/put-doubts-away/. * * * В ноябре прошлого года я сделал анализ первых свежих результатов выборов президента США в графстве Милуоки, штат Висконсин, и штате Гавайи. И хотя целью была проверка закона Бенфорда на данных по отдельным избирательным участкам, я обратил внимание на другие статистические особенности результатов голосования в графстве Милуоки, которые обычно не встречаются при анализе аналогичных данных, полученных на других выборах или из других регионов. Поскольку я не специалист по электоральной статистике, у меня нет собственной убедительной гипотезы, объясняющей выявленные аномалии. Они не обязательно свидетельствуют о мошенничестве на выборах, а могут быть вызваны демографическими и иными особенностями графства. Чтобы предположение о массовой манипуляции на этих выборах можно было надежно подтвердить или опровергнуть только статистическими методами, необходимо было бы получить доступ к данным по всем избирательным участкам в стране (их около трехсот тысяч), причем желательно в сравнении с предыдущими аналогичными выборами за достаточно продолжительный период времени. Вернувшись к этой теме в апреле этого года, я начал поиски итоговых данных голосования по избирательным участкам, полагая, что они должны быть за это время собраны и доступны даже с учетом региональных особенностей США. Мне их найти так и не удалось; они до сих пор находятся в процессе сбора, проверки и обобщения. Поэтому в качестве развлечения я попробовал проанализировать хотя бы доступные сейчас данные по графствам и приравненных к ним территориальных единиц. Сведения по выборам 2020 года взяты с сайта Kaggle, в качестве источника указан Thomson Reuters. Сведения по выборам 2000–2016 гг. взяты с сайта MIT Election Lab. Изначально я не рассчитывал найти что-то разоблачительное: наиболее «технологичные» манипуляции на выборах можно обнаружить только при анализе данных с избирательных участков, а на уровне графств было бы видно только самое грубое директивное вмешательство (вроде того, что имеет место в России или Белоруссии). Такого, разумеется, в США в этот раз не было. Несмотря на то, что закон Бенфорда (для одной и двух цифр) на данных Thomson Reuters 2020 года соблюдался идеально, остальное выглядело крайне подозрительно. На одной диаграмме рассеяния был виден, как я его называю, «двойной хвост кометы». На другой — отличные от предыдущих лет формы «облака». На основной гистограмме частоты относительных результатов по графствам было явно видно биномиальное распределение. Быстро проверив все то же самое на данных по выборам 2000, 2004, 2008, 2012 и 2016 годов я убедился, что там ничего подобного не встречается: везде красивые «однохвостые кометы», «сердцеподобные облака» и гистограммы с распределениями, похожими на нормальное. Я показал свои результаты еще нескольким людям и они согласились с тем, что 2020 год выглядит подозрительно на фоне предыдущих лет. Можно было начать выдвигать гипотезы, основной из которых могло быть влияние «почтового голосования». Впрочем, и другие объяснения могли бы иметь право на существование. Однако, я предпочел подождать с публикацией своих подозрений и проверить все еще раз. Это заняло месяц. Мне хотелось выяснить, в каких конкретно графствах результаты приводят к появлению второго «хвоста кометы» и биномиальному распределению. На графиках видно, что такие графства должны быть по численности населения меньше, чем в среднем по всей выборке. Байден набирал в них больше голосов, чем Трамп. То есть если бы этим статистическим особенностям соответствовали реальные манипуляции на выборах, они были бы в пользу кандидата от Демократической партии. Альтернативной гипотезой было бы то, что в этих графствах показаны честные результаты, а во всех остальных — искаженные, но она опровергалась тем, что противоречила бы картинкам предыдущих лет и исходила бы из предположения, что в 2020 г. предпочтения американцев резко изменились по сравнению с предыдущими двадцатью годами. Разгадка, как оказалось, лежала на поверхности. Данные MIT были приведены по немногим более чем трем тысячам территорий. Это примерно соответствует числу графств в США и эквивалентных им единиц. В данных Thomson Reuters таких территорий около 4700. Сравнив два списка, я выяснил, что в некоторых штатах сведения по 2020 г. были приведены не по графствам, а по муниципалитетам. После того, как данные Thomson Reuters были приведены к виду, сопоставимому с данными MIT, все статистические аномалии исчезли. Тем не менее, неоднородность исходных данных по 2020 году дала возможность посмотреть подробнее на результаты в отдельных штатах, хотя это еще не данные с избирательных участков. Конкретно речь идет о штатах Коннектикут (169 муниципалитетов), Мэн (498), Массачусетс (351), Нью-Гэмпшир (237), Род-Айленд (39) и Вермонт (246). Это сопоставимо с числом избирательных участков в графстве Милуоки (478). Все эти наборы данных, даже такой крохотный, как Род-Айленд, демонстрируют общие статистические свойства: соблюдение закона Бенфорда, «кометообразное» рассеяние абсолютного числа голосов, поданых за кандидатов, «облачное» рассеяние относительных результатов и похожее на нормальное распределение частоты относительных результатов по муниципалитетам. Это возвращает меня к вопросу, который был задан в ноябре прошлого года: какие могут быть «естественные» объяснения особенностей результатов выборов в графстве Милуоки и почему они настолько отличаются от всего, с чем мне их удалось сравнить? Ответ надо искать, видимо, путем анализа исторических данных по этому графству и их сопоставления с другими графствами.
7Upvotes
thumb_upthumb_downchat_bubble

More from Arkady Alexandrov

Вышло решение Facebook Oversight Board по делу о блокировке Трампа.* Еще не дочитал до конца (12 тыс. слов, 77 тыс. знаков), поэтому пока первые оценки оставлю при себе. Если будет время, то напишу подробнее. Но один факт весьма красноречив безотносительно содержания. Это решение анонимное. Под ним никто не подписан, ни одного имени. Ни пяти авторов основного текста, ни тех, кто его поддержал. Не говоря уже об особых мнениях, но это необязательно. Даже в тоталитарной коммунистической или нацистской юстиции судили конкретные судьи; правосудие по своей сути не может быть безликим. Но не в этом случае. Арбитрам в деле Трампа стыдно назвать свои имена, скрытые за названием институции. Одно это говорит о том, насколько они верят в справедливость того, что делают. * oversightboard.com/decision/FB-691QAMHJ/
189 views · May 7th
Ровно пять лет и один день назад я написал, что было бы неплохо, чтобы кто-нибудь придумал асоциальную сеть. В ней сначала все со всеми «дружат», а потом расстаются расстаются потихоньку, пока каждый, в предельном случае, не остается в полном одиночестве. Minds неожиданно оказался для меня первым прототипом такой асоциальной сети. После Facebook я зарегистрировался и стал писать в MeWe, Gab и Parler, но только в тут довольно быстро сформировалось небольшое русскоязычное сообщество. В отличие от Telegram, куда я позвал только лично знакомых и дорогих мне людей, здесь я почти ни с кем лично незнаком, хотя и что-то слышал о том, что это популярные авторы в определенных кругах. Я подписывался на всех, кто попадал в поле зрения и отвечал взаимностью тоже почти всем. Вместо запланированных двух недель этот процесс знакомства занял полтора месяца. Это было очень интересно и очень утомительно. Теперь начался эксперимент по проверке собственной стойкости к раздражающим факторам и готовности терпеть неприятные и оскорбительные для себя вещи от людей, к которым нет личной привязанности. Но, с другой стороны, отсутствие непременной взаимности учит излагать мысли не для конкретных читателей (которых я всегда имел в виду раньше даже в публичных постах), а для заранее неизвестной аудитории. В каком-то смысле, это дает больше свободы, потому что требует меньше оглядки на чужие чувства. Истина дороже.

More from Arkady Alexandrov

Вышло решение Facebook Oversight Board по делу о блокировке Трампа.* Еще не дочитал до конца (12 тыс. слов, 77 тыс. знаков), поэтому пока первые оценки оставлю при себе. Если будет время, то напишу подробнее. Но один факт весьма красноречив безотносительно содержания. Это решение анонимное. Под ним никто не подписан, ни одного имени. Ни пяти авторов основного текста, ни тех, кто его поддержал. Не говоря уже об особых мнениях, но это необязательно. Даже в тоталитарной коммунистической или нацистской юстиции судили конкретные судьи; правосудие по своей сути не может быть безликим. Но не в этом случае. Арбитрам в деле Трампа стыдно назвать свои имена, скрытые за названием институции. Одно это говорит о том, насколько они верят в справедливость того, что делают. * oversightboard.com/decision/FB-691QAMHJ/
189 views · May 7th
Ровно пять лет и один день назад я написал, что было бы неплохо, чтобы кто-нибудь придумал асоциальную сеть. В ней сначала все со всеми «дружат», а потом расстаются расстаются потихоньку, пока каждый, в предельном случае, не остается в полном одиночестве. Minds неожиданно оказался для меня первым прототипом такой асоциальной сети. После Facebook я зарегистрировался и стал писать в MeWe, Gab и Parler, но только в тут довольно быстро сформировалось небольшое русскоязычное сообщество. В отличие от Telegram, куда я позвал только лично знакомых и дорогих мне людей, здесь я почти ни с кем лично незнаком, хотя и что-то слышал о том, что это популярные авторы в определенных кругах. Я подписывался на всех, кто попадал в поле зрения и отвечал взаимностью тоже почти всем. Вместо запланированных двух недель этот процесс знакомства занял полтора месяца. Это было очень интересно и очень утомительно. Теперь начался эксперимент по проверке собственной стойкости к раздражающим факторам и готовности терпеть неприятные и оскорбительные для себя вещи от людей, к которым нет личной привязанности. Но, с другой стороны, отсутствие непременной взаимности учит излагать мысли не для конкретных читателей (которых я всегда имел в виду раньше даже в публичных постах), а для заранее неизвестной аудитории. В каком-то смысле, это дает больше свободы, потому что требует меньше оглядки на чужие чувства. Истина дороже.