Наша аналитическая модель прогнозирования выборов, примененная к второму туру президентских выборов в Бразилии в 2022 году, показала погрешность в 0,5 % от фактических результатов.

Мы отслеживаем ежедневные данные социальных сетей (только общедоступные данные) уже около 5 лет со всех типов учетных записей, например, политиков, знаменитостей, влиятельных лиц, продуктов, компаний, спортивных команд, колледжей и так далее. Все, что происходит в реальном мире, комментируется, исследуется, фальсифицируется, раздувается, дискредитируется в социальных сетях. Тем не менее, одна вещь, которая стала совершенно очевидной, заключается в том, что люди (настоящие, а не боты) откровенно прямолинейны, когда вовлекают или публикуют что-то в социальных сетях, особенно если они сильно относятся к какому-то продукту, компании или политикам.

Некоторое время мы были очарованы связью между социальными сетями и выборами. Мы проанализировали содержимое социальных сетей кандидатов на нескольких выборах в Бразилии и США и искали корреляции между показателями социальных сетей и окончательными результатами выборов. В конце этой статьи вы можете найти ссылки на наш анализ прошлых выборов.

В этой статье мы подробно расскажем о нашем подходе к прогнозированию результатов выборов, основываясь исключительно на данных из социальных сетей, некоторых основных предположениях о размере электората и кандидатах и ​​немного ИИ (для интеллектуального анализа данных и анализа настроений). На последних президентских выборах в Бразилии в 2022 году наш прогноз накануне второго тура выборов отличался от итогового результата на 0,5%, что оказалось точнее всех, но один опрос общественного мнения, опубликованный накануне. В этой статье объясняется наша методология составления прогноза.

В последние несколько лет, с ростом популярности и доступности технологий машинного обучения, многие ученые опубликовали методы прогнозирования результатов выборов на основе данных. Не данные, собранные в ходе интервью или телефонного звонка, а данные, добровольно предоставленные людьми с помощью социальных сетей.

Исследование [1] показало, что многим людям легче выражать свое личное мнение в Интернете, чем при общении с социологом. Хорошо это или плохо, но взаимодействие в социальных сетях, как правило, более поляризовано и менее восприимчиво к социальным нормам, которые обычно присутствуют в рабочей или семейной среде. Таким образом, возможно, в большей степени репрезентативны реальные намерения человека в избирательной урне.

Методы машинного обучения для прогнозирования результатов выборов используют самые разные данные из социальных сетей, чаще всего количество поклонников и подписчиков, количество лайков и репостов, количество комментариев, положительно или отрицательно упоминающих кандидата. Анализ настроений широко используется для оценки того, является ли комментарий благоприятным для данного кандидата или нет.

Ранние исследования смогли соотнести объем сообщений в социальных сетях, связанных с данным кандидатом или партией, и настроение комментариев, размещенных о кандидатах, с результатами выборов [2, 3].

Совсем недавно исследователи использовали более сложные модели, рассматривая различные показатели, такие как количество постов, лайков, репостов и комментариев (количество и настроение), а также используя алгоритмы машинного обучения для прогнозирования результатов выборов [4, 5].

Поддельные новости и боты усложняют мониторинг и понимание реального взаимодействия и мнений. Кроме того, язык, используемый в социальных сетях, имеет тенденцию быть очень неформальным, саркастическим, ироничным, полным сленга, множества грамматических и орфографических ошибок, что делает любой тип анализа (например, определение настроений или мнений) гораздо менее точным.

Политики, особенно очень поляризованные, обычно имеют огромное количество подписчиков и очень активно участвуют в своих постах в социальных сетях. Большинство фанатов и подписчиков, как правило, являются конвертированными, то есть людьми, которые все равно проголосуют за кандидата, а не представляют колеблющийся электорат. На очень конкурентных выборах неопределившиеся избиратели (если они решат голосовать) выберут кандидата ближе к выборам и могут отдать победу кандидату, даже если у них намного меньше поклонников и последователи. Таким образом, рассмотрение общего количества в социальных сетях как индикатора тенденций электората может ввести в заблуждение.

Постепенное изменение показателей социальных сетей, особенно ближе к выборам, гораздо лучше отражает тенденции среди сомневающихся избирателей.

Этот эффект можно оценить количественно, посмотрев на изменение числа поклонников и последователей во времени в сравнении со всеми кандидатами на выборах. Когда человек, который еще не является поклонником или последователем какого-либо кандидата, начинает следить за данным кандидатом, особенно незадолго до выборов, это, вероятно, означает, что что-то в недавнем сообщении этого кандидата нашло отклик у этого человека — достаточное для того, чтобы он вступил в контакт с кандидат в социальных сетях (и, возможно, проголосовать за).

Это можно измерить следующим образом: рассмотрим выборы с 4 кандидатами, и в данный день есть 100 новых людей, которые следуют за 4 кандидатами (сумма новых фолловеров). Допустим, у кандидата А было 40 новых подписчиков, у В — 25, у С — 20, а у D — 15. Отсюда мы можем оценить, что из всех «неопределившихся» людей в этот день 40 % выбрали кандидата А, 25 % выбрали кандидата В, 20 % выбрали С и только 15 % выбрали D. На данный момент, если у нас есть оценка по количеству не определившихся избирателей мы могли бы оценить, как их голоса будут распределены по каждому кандидату.

Чтобы дать представление об этом ежедневном эффекте, мы отслеживали общее количество поклонников и подписчиков, а также их ежедневное постепенное изменение для четырех лучших кандидатов в президенты на выборах 2022 года в Бразилии за период до первого тура выборов, включая период когда кандидаты были очень активны на телевидении и в предвыборной кампании. На рисунках ниже показаны детали.

Оба приведенных выше графика показывают одну и ту же информацию: количество новых ежедневных поклонников/последователей, полученных каждым кандидатом, в процентах от общего числа новых ежедневных поклонников/последователей.

Первый график аннотирован конкретными событиями, вызвавшими различные реакции. Например, на следующий день после того, как каждый кандидат дал интервью «Jornal Nacional» (JN), популярной телевизионной новостной программе, число их новых поклонников/последователей увеличилось. 22 августа действующий президент и кандидат Жаир Болсонару дал интервью JN, и сразу после этого (23 августа) он собрал 75% новых поклонников / последователей в тот день. Точно так же Лула дал интервью JN 25 августа, а 26 августа он собрал 71% новых фанатов в тот день. 28 августа по телевидению прошли президентские дебаты, в которых кандидат Симона Тебет считалась победителем, а на следующий день, 29 августа, Симона собрала 30% новых фанатов, больше, чем любой другой кандидат в тот день. и больше, чем она собирала в любой другой день. 7 сентября президент Болсонару принял участие в большом мероприятии, посвященном Дню независимости Бразилии, и на следующий день собрал 61% новых фанатов.

Эти ежедневные вариации также показывают, что эффект события обычно недолговечен, то есть кандидат в центре внимания получает пропорционально больше поклонников сразу после события (а другие кандидаты пропорционально меньше), но в более поздние дни их уровень возвращается к норме. Тем не менее, мы обнаружили, что среднее значение этих ежедневных колебаний действительно коррелирует с количеством неопределившихся избирателей, которые принимают решение за кандидата. Мы подробно расскажем, как использовать его количественно позже.

Аналитическая модель для прогнозирования выборов

Наша аналитическая модель прогнозирования выборов состоит из следующих шагов:

  1. Первоначальные оценки:
    a. Общее количество имеющих право голоса (eV)
    b. Количество реальных избирателей (aV), т. е. людей, которые фактически проголосовали
    c. Количество действительных голосов (vV)
    d. Количество недействительных голосов (iV)

Для целей оценки результатов выборов мы будем учитывать только количество действительных голосов при полностью пропорциональной системе голосования. Эти цифры можно взять с официальных избирательных сайтов и оценить на основе предыдущих выборов. Очевидно, что они могут меняться для каждых выборов, но в Бразилии, где голосование является обязательным, процент действительных голосов по отношению к имеющим право голоса избирателям не претерпел существенных изменений за последние 3 президентских выборы.

2. Процент потенциальных голосов (ppv)
В дни, предшествующие дню выборов (это может быть один день, одна неделя, один месяц, в зависимости от степень детализации и достоверность имеющихся данных), каждому кандидату присваивается определенный процент потенциальных голосов (ppv). Например, перед 1-м туром выборов (или одним туром), поскольку у нас нет «настоящих» цифр, мы могли бы использовать среднее значение последних опросов общественного мнения для каждого кандидата. Если есть 2-й тур/последний тур выборов, мы должны использовать фактическое количество голосов, которое каждый кандидат получил в 1-м туре выборов.
Пусть ppvₖ обозначает этот процент потенциальных голосов за кандидата k, то

pVₖ = aV * ppvₖ

это потенциальные голоса, которые должен получить кандидат k на выборах (1-й или единственный тур), или фактические голоса, полученные кандидатом k на выборах в 1-м туре.

3. Определенные и неопределенные голоса
Из потенциальных голосов за данного кандидата k (пункт 2 выше) мы оцениваем процент, который определенно будет отдан кандидату. k в день выборов (процент определенных голосов = pdv) и процент еще не определившихся (процент неопределившихся голосов = пув). Эти проценты можно взять из опросов общественного мнения, которые обычно спрашивают избирателей, насколько они уверены в выбранном ими кандидате и могут ли они измениться. Следовательно, определенные голоса (dVk) и голоса с неопределенностью (uVk), связанные с кандидатом k, можно оценить как:

dVₖ = pVₖ * ​​pdvₖ
uVₖ = pVₖ * ​​puvₖ

Общее количество неопределившихся голосов будет равно сумме за всех N кандидатов:

4. Передача голоса
При двухэтапных выборах только два лучших кандидата в первом туре будут участвовать во втором туре выборов (если ни один из них не наберет более 50 % действительных голосов). . Избиратели, проголосовавшие за других кандидатов, должны будут выбрать между двумя оставшимися кандидатами (либо воздержаться, либо признать бюллетень недействительным). Некоторые из этих избирателей могут дольше оставаться в нерешительности (фактор uVₖ, описанный в пункте 3.), а остальные передадут свои голоса. На этом шаге мы оцениваем эту передачу.

Если кандидаты A и B занимают первые 2 места в 1-м туре, а кандидат C остается позади, процент перехода C к A и C к B, обозначаемый как pt_c-›A), или < br />pt_c-›B, оценивается по 2 факторам:

  • а) Насколько согласована партия кандидата С с партиями А и В? Если C полностью совпадает с A (например, две правые партии или две левые партии), то pt_c->A = 100% или pt_c->B = 0%. Поэтому здесь нужен некоторый политический контекст.
  • б) При отсутствии определенного расклада (например, центристская партия и партия левого/правого крыла) мы будем оценивать процент передачи на основе анализа данных и настроений. Подробнее см. ниже.

В приведенных ниже формулах мы будем называть этот процент передачи голосов от кандидата j кандидату k как pt_j-›k. Предположим, что в 1-м туре выборов с N кандидатами каждый кандидат i получил Vᵢ голосов, а число неопределившихся голосов равно uVᵢ. В случае повторных выборов с первыми двумя кандидатами (1 и 2, чтобы сделать формулы чище) общее количество голосов, переданных от кандидатов 3 к N кандидатам 1 и 2, будет:

5. Распределение неопределившихся голосов
Предполагая, что эти избиратели (все еще не определившиеся в дни, предшествующие выборам) придут на избирательные участки, им придется выбирать между оставшимися кандидатами. Мы оценим процент неопределившихся голосов, отданных каждому кандидату, на основе среднего процента новых ежедневных поклонников/последователей (pdf), собранных каждым кандидатом за временной интервал, равный учитываются (эти ежедневные значения можно увидеть на рисунках выше).
Неопределенные голоса, которые «решают» кандидата i, обозначаются как udVᵢ:

6. Окончательный подсчет
Окончательное общее предполагаемое количество голосов, которое кандидат i получит на выборах, будет определяться суммой прямых голосов, переданных голосов. и часть не определившихся голосов:

Окончательный процент действительных голосов, оцененный для кандидата i, будет определен:

где m — окончательное число кандидатов (например, 2 во втором туре выборов).

Собираем вместе

На приведенном ниже рисунке показано, как формируется окончательное количество голосов в соответствии с 6 шагами, представленными выше, в конкретном случае повторных выборов после 1-го тура выборов с 4 кандидатами, при условии, что кандидаты A и B являются первыми 2. Для Например, окончательные голоса, прогнозируемые для кандидата А (fVA), будут представлять собой сумму: (1) голосов, непосредственно перенесенных из 1-го тура выборов (dVA), (2) доли неопределившихся голосов, которые переходят к А на основе среднего процента новых ежедневных поклонников/последователей, собранных A (udVA) и (3) голосов, переданных от кандидатов C (tV_C-›A) и D (tV_D-›A).

Немного искусственного интеллекта

Как указано в пункте 4б. выше, мы используем интеллектуальный анализ данных и анализ настроений, чтобы оценить процент голосов, переданных от любого кандидата, который не прошел во второй тур выборов, другому, который это сделал.

Мы собрали сообщения и комментарии, сделанные непосредственно в аккаунтах кандидатов в социальных сетях (Facebook и Twitter) за несколько месяцев до выборов. В частности, если мы хотим оценить передачу голосов, нам нужно посмотреть комментарии между днем ​​после выборов 1-го тура и за день до второго тура выборов, опубликованные в аккаунтах проигравших кандидатов в социальных сетях. Очень часто сторонник проигравшего кандидата публикует комментарии, говорящие своему кандидату поддержать А или Б во втором туре выборов; или комментарий будет напрямую критиковать или поддерживать кандидата А или Б или их партии.

Во-первых, мы создали длинный список словесных выражений, связанных с кандидатами-победителями и их партиями. Затем мы применяем интеллектуальный анализ данных для дальнейшего выбора только тех комментариев, которые содержат какое-либо выражение, похожее на те, что в списке. Наконец, мы проводим анализ настроений по выбранным комментариям. Доля положительных комментариев, связанных с кандидатом A, плюс отрицательные комментарии, связанные с B, будет представлять собой процент голосов, переданных кандидату A, и наоборот — кандидату B. На рисунке ниже показаны эти шаги.

Наши прогнозы относительно второго тура президентских выборов в Бразилии 2022 г.

1-й тур выборов состоялся в воскресенье, 2 октября 2022 г., с участием 11 кандидатов. В таблице ниже показаны фактические результаты. Мы будем использовать эти цифры в качестве отправной точки для наших прогнозов второго раунда.

Два лучших кандидата, Лула и Болсонару, примут участие во втором туре выборов 30 октября 2022 года.

29 октября мы оценили нашу модель прогнозирования, чтобы определить вероятного победителя на следующий день. Наши предположения были следующими.

Определенное и неопределенное голосование

Поскольку это были чрезвычайно поляризованные выборы, мы решили использовать 100% в качестве процента определенных голосов за Лулу и Болсонару. То есть мы предполагали, что все, кто проголосовал за Лулу или Болсонару в 1-м туре, проголосуют так же и во 2-м туре.

Согласно нашему моделированию, голоса, полученные другими кандидатами в 1-м туре, либо перейдут к одному из лучших кандидатов, либо попадут в пул неопределившихся голосов. Используемые проценты и наши рассуждения приведены в таблице ниже.

Проценты неопределившихся голосов (puv) в приведенной выше таблице являются входными параметрами нашей модели и были определены на основе нашей оценки политических партий и союзов, сформированных за несколько дней до 2-го тура выборов. Они, безусловно, субъективны.

Перенос голоса

Как показано на шаге 4. выше, голоса, отданные за кандидата, не входящего в топ-2, становятся либо неопределенными, либо передаются одному или обоим из топ-2 кандидатов в соответствии с процентом передачи голосов (pt_i-›1, pt_i-› 2). Этот процентный перевод является либо входным параметром (зеленые ячейки в таблицах ниже) для модели (когда политическая ориентация ясна), либо оценивается на основе интеллектуального анализа данных и анализа настроений комментариев, размещенных в учетных записях социальных сетей не- топ-2 кандидатов (серые ячейки).

Мы провели сбор данных и анализ настроений по всем комментариям, размещенным в учетных записях в социальных сетях (Facebook, Twitter и YouTube) кандидатов Симоне Тебет и Чиро Гомес их поклонниками/последователями. У других кандидатов было значительно меньше комментариев, и их партийная принадлежность была более четко определена, поэтому мы использовали оценочные значения. В таблицах ниже представлены проценты передачи голосов. Общее количество голосов, которые должны быть переданы от каждого кандидата, не входящего в топ-2, равно общему количеству голосов, полученных в 1-м туре, за вычетом количества голосов, которые не определились.

Назначение неопределившихся голосов

Как объяснялось на шаге 5 выше, неопределившиеся голоса «присваиваются» одному из двух лучших кандидатов на основе среднего процента новых ежедневных поклонников/последователей, собранных каждым кандидатом.

На приведенном ниже рисунке показано ежедневное постепенное изменение общего числа поклонников и подписчиков в социальных сетях Лулы и Болсонару (с учетом суммы Facebook, Instagram и Twitter) в период между 1-м и 2-м турами выборов.

Используя средние значения из рисунка выше и общее количество неопределившихся голосов, мы присваиваем неопределившиеся голоса каждому кандидату следующим образом:

Теперь мы можем оценить окончательное количество голосов, которое должны получить Лула и Болсонару во втором туре выборов, используя оценочные значения определенных голосов, переданных голосов и неопределившихся голосов и формулу на шаге 6.

Весь процесс можно представить на следующей схеме. По нашим прогнозам, при переходе от 1-го тура к второму туру Лула наберет дополнительно 3,5 млн голосов, а Болсонару — еще 6,3 млн. Однако из-за преимущества Лулы в 1-м туре Лула все равно выиграет выборы в конце.

Окончательные результаты и опросы общественного мнения

Мы подготовили этот анализ накануне второго тура выборов (29 октября): Лула победит Болсонару с небольшим отрывом, 51,41% против 48,59%. В тот же день было опубликовано несколько опросов общественного мнения. В таблице ниже наши оценки сравниваются с другими опросами общественного мнения и официальными результатами выборов.

Как видно из таблицы, наши прогнозы были лучше, чем все опросы, кроме одного (см. ссылки [6,7,8] на источники этих цифр).

Заключительные соображения

В данной статье представлена ​​методика оценки результатов выборов на основе 3-х основных компонентов:

  1. Ежедневные поклонники / подписчики, собранные из учетных записей кандидатов в социальных сетях.
  2. Интеллектуальный анализ данных и анализ настроений комментариев, размещенных в этих учетных записях.
  3. Основные предположения об исходных позициях кандидатов (путем опросов или выборов 1-го тура) и их политических взглядах.

Используя эти 3 компонента, мы оценили количество решенных голосов, передачу голосов и голосов от ранее не определившихся людей.

Было принято несколько упрощающих допущений, таких как: (1) общенациональное пропорциональное голосование (как в Бразилии), (2) разумное ожидание количества действительных голосов в день выборов (на основе обязательного голосования и исторических тенденций) и (3) очень поляризованные выборы, когда избиратели очень сильно симпатизировали тому или иному кандидату. Эти предположения были верны в Бразилии в 2022 году.

Наши оценки были такими же хорошими, как результаты двух лучших опросов общественного мнения, опубликованных в Бразилии накануне второго тура выборов, при значительно более низкой стоимости. Стоимость проведения опросов общественного мнения в Бразилии в 2022 году варьировалась от более чем пятисот тысяч бразильских реалов (примерно сто тысяч долларов США) для более престижных опросов (Datafolha, IPEC) с большей выборкой до пятидесяти тысяч реалов (около 10 тысяч долларов США) для менее известные компании и меньшие выборки [9].

Наша методология полностью основана на данных, собранных из социальных сетей [13], и может оцениваться ежедневно без дополнительных затрат после первоначальной настройки. Основные затраты связаны со сбором данных из социальных сетей, что значительно ниже самого дешевого опроса общественного мнения, но дает стабильно более точные результаты.

Наши упрощающие допущения могут быть неприменимы напрямую к другим избирательным системам (таким как процесс Коллегии выборщиков в США) или к выборам, которые гораздо менее поляризованы. Для президентских выборов в США нам потребуется собирать данные из социальных сетей по штатам, которые не всегда доступны (обратите внимание, что все данные, которые мы собираем из социальных сетей, являются общедоступными — личная информация не используется). Что касается выборов, которые значительно менее поляризованы, мы могли бы адаптировать наши входные параметры, чтобы справиться с этим, возможно, за счет некоторой потери точности (это также проблема для опросов общественного мнения).

Мы проверили нашу методологию на выборах президента Бразилии в 2018 г. [10] и 2022 г. (эта статья), мэра Сан-Паулу в 2020 г. [11], а также на выборах в Сенат Джорджии в США в 2021 г. [12]. Во всех случаях мы получили результаты, сравнимые с лучшими результатами опросов общественного мнения.

Социальные сети по-прежнему вызывают много критики за их негативные последствия чрезмерного использования (особенно среди детей), возможность киберзапугивания, распространение фальшивых новостей и многое другое. Однако в конкретном случае выражения мнения о кандидатах и ​​выборах мы обнаружили, что социальные сети достаточно репрезентативны для населения в целом (конечно, за вычетом фейковых новостей и ботов) и являются полезным источником данных для прогнозирования результатов выборов. Наша аналитическая методология, описанная здесь, показывает, что это возможно.

Рекомендации

  1. Андреа Серон, Луиджи Курини и Стефано Иакус, Как социологи могут использовать данные социальных сетей для улучшения прогнозов выборов (2016 г.), Washington Post, 21 декабря 2016 г.
  2. А. Тумасян, Т. О. Шпренгер, П. Г. Санднер и И. М. Велпе, Предсказание выборов с помощью Twitter: что 140 персонажей говорят о политических настроениях (2010 г.), Четвертая международная конференция AAAI по блогам и социальным сетям.
  3. Б. О'Коннор, Р. Баласубраманян, Б. Р. Рутледж и Н. А. Смит, От твитов к опросам: связь текстовых настроений с временными рядами общественного мнения (2010 г.), Четвертая Международная конференция AAAI по блогам и социальным сетям.
  4. Келлитон дос Сантос Брито и Пауло Дж. Л. Адеодато, Прогнозирование выборов в Бразилии и США с помощью машинного обучения и данных социальных сетей (2020 г.), Международная объединенная конференция по нейронным сетям (IJCNN) 2020 г..
  5. З. Чжоу, М. Серафино, Л. Кохан, Г. Калдарелли и Х. Максе, Почему опросы не могут предсказать выборы (2021 г.), Journal of Big Data 8, 137 (2021).
  6. Официальные результаты выборов — Бразилия (на португальском языке)
  7. Габриэль Сестрем, As pesquisas eleitorais acertaram ou erraram no 2.º turno? (2022 г.), Jornal Gazeta do Povo, 30 октября 2022 г. (на португальском языке).
  8. Pesquisas eleitorais (2022 г.), Веб-сайт G1 Globo (на португальском языке).
  9. Lula x Bolsonaro: veja as últimas pesquisas que serão divulgadas hoje (29) (2022 г.), Jornal Estado de Minas, 29 октября 2022 г. (на португальском языке).
  10. Podem Mídias Sociais Prever o Resultado das Eleições para Presidente? (31/out/2018), статья LinkedIn (на португальском языке).
  11. Prevendo o Resultado das Eleições em São Paulo (2020 г.), блог Odysci (на португальском языке).
  12. Опросы мертвы — да здравствуют социальные сети (2021), блог Odysci.
  13. Все данные социальных сетей были собраны с помощью Odysci Media Analyzer.