Автор Шон Суэйзи

10 октября 2018 г.

АННОТАЦИЯ

Используя python для извлечения исторических данных из онлайн-источников и нейронную сеть для анализа этих данных, была создана модель для прогнозирования результатов промежуточных выборов 2018 года в Палату представителей для каждого округа. Информация, используемая для этой модели, в основном состоит из данных переписи населения по каждому округу, а также исторических результатов выборов и общедоступных финансовых данных. Были созданы две модели, каждая из которых предсказывала победу демократов, но с разной степенью разницы в зависимости от того, были ли включены результаты предыдущих выборов в Конгресс. Когда эти данные были включены, демократы имели преимущество в 17 мест, а когда его не было, преимущество в 3 места.

НЕЙРОННАЯ СЕТЬ

Нейронная сеть была построена как нейронная сеть прямого распространения, которая использовала 14 наборов входных данных:

Таблица 1 - Источники данных, использованные для прогноза:

Наборы данных в таблице 1 были выбраны в качестве репрезентативного сечения различных факторов, влияющих на результаты выборов. Данные из бюро переписи были получены вручную. Данные о финансировании избирательных кампаний, результатах выборов с 2002 по 2014 годы и данные о занимаемой должности были получены с помощью программы парсинга веб-страниц на Python с использованием пакета Beautiful Soup в сентябре 2018 г. Эти данные были накапливаются и хранятся в электронной таблице Excel (см. Приложение).

Конечное состояние шаблонной нейронной сети имело 14 входных узлов, два набора скрытых слоев, каждый с пятью нейронами, и один выходной узел, который давал прогнозируемую долю голосов республиканцев и демократов.

Рисунок 1 - Дизайн нейронной сети:

Нейронная сеть развивалась в ходе проекта за счет минимизации функции потерь, когда сеть просили предсказать результаты выборов 2016 года, используя для обучения только данные за 2000–2014 годы. Чтобы минимизировать функцию потерь для нейронной сети, ей было дано указание остановиться после того, как функция потерь начала увеличиваться из-за чрезмерной подгонки. После долгих проб и ошибок с использованием результатов выборов 2016 и 2014 годов в качестве пробных наборов было обнаружено, что включение выборов 2000 года снизило точность модели. Поэтому для прогноза результатов на 2018 год использовались только данные с 2002 по 2016 год.

Была также создана вторая модель, которая включала результаты предыдущих выборов в Конгресс. Хотя это не привело к значительному изменению проигрыша в наборе для валидации, это привело к более широкому перевесу победы демократов. Поскольку тестирование не выявило значимой разницы в потерях по обучающей выборке, результаты для обоих представлены ниже, причем исходная модель помечена как «Модель A», а обновленная модель, которая включает результаты предыдущих выборов, помечена как «Модель B».

Одна концепция, которая использовалась в этой модели, заключается в том, что нейронная сеть должна быть повторно инициализирована и запускаться много раз для создания статистики для каждого отдельного района. Для окончательного прогноза сеть была повторно инициализирована и запущена 10 000 раз. Поскольку веса инициализируются случайным образом для каждого прогона сети, результаты будут разными для каждой сгенерированной нейронной сети. Таким образом, для каждого района были найдены выборочное среднее и стандартное отклонение.

Хотя этот процесс был успешным для нахождения несмещенных средних значений выборки, дисперсия, вызванная инициализацией веса, была ниже реальной дисперсии. Возможным объяснением низкого прогнозируемого стандартного отклонения может быть недостаточная случайность в модели из исходной генерации весов для учета реальной изменчивости результатов выборов. Чтобы учесть это, стандартное отклонение каждого района, рассчитанное с помощью модели, было умножено на коэффициент 2, чтобы привести его в соответствие с наблюдаемой изменчивостью районов.

Таблица 2 - Результаты обеих моделей:

* Эти числа получены из распределения вероятностей результатов, которые рассчитаны с предположением, что гонки являются независимыми событиями. Из-за корреляции выборов распределение плотности вероятности шире, чем предполагалось, и эти числа, вероятно, намного ближе к 50%.

Прежде чем интерпретировать результаты, следует отметить, что вариабельность распределения мест на национальном уровне, прогнозируемая моделью, потенциально ошибочна. Модель вычисляет результаты для каждого района независимо, а затем рассматривает каждый район как независимую переменную при вычислении распределения. На самом деле, есть несколько переменных, выходящих за рамки модели, которые сложно включить в нейронную сеть, но которые значительно расширяют вероятностное распределение мест. Чтобы исправить это неточное предположение, необходимо включить фактор, который коррелирует схожие районы. Природу этого эффекта невозможно определить с помощью нейронной сети, не добавив возможной систематической ошибки в процесс. Хотя величина разброса в модели, следовательно, ошибочна, этот недостаток не влияет на средний результат, и все же можно сделать важные прогнозы.

Дальнейший анализ этих данных, особенно причины, по которой модель предсказывала любой заданный результат на районном уровне, затруднен из-за характера модели. Основной скрывающий фактор заключается в том, что нейронные сети представляют собой просто огромный набор весов и смещений, поэтому попытка понять, что каждая итерация нейронной сети делает с набором данных, неосуществима. Однако гораздо больший фактор, который скрывает этот процесс, состоит в том, что модель состоит не из одной, а из тысяч более мелких моделей, результаты которых усреднены для каждого района. Таким образом, чтобы правильно проанализировать результаты для любого данного района, необходимо проанализировать не одну, а тысячи нейронных сетей. Однако это не означает, что нельзя делать общие абстракции о результатах модели. Две модели дают разные прогнозы результатов Дома в ноябре. Хотя оба предсказывают преимущество демократов над республиканцами, масштабы этого преимущества различаются. Модель A предсказывает небольшое преимущество демократов, а модель B - большее. Учитывая, что Модель B учитывает результаты прошлых выборов, это может продемонстрировать, что Модель B проанализировала модель ухудшения ситуации у действующих партий в среднесрочной перспективе. Это несоответствие может также указывать на то, что другие недемографические факторы способствуют большему лидерству демократов.

ЗАКЛЮЧЕНИЕ

Моя гипотеза состоит в том, что Модель B более точна, поскольку включает в себя более релевантные данные. Дополнительные данные в модели B - это результаты последних выборов в округе, которые могут помочь модели предсказать пристрастие округа, выходящее за рамки того, что могут описать демографические данные. Это должно привести к более точным результатам, особенно в округах, где взаимосвязь между демографическими и политическими предпочтениями несимметрична среднему по стране.

Таблица 3. Десять наиболее конкурентоспособных округов по модели B:

У описанного выше метода нейронной сети есть свои преимущества и недостатки. Одна из самых сильных сторон использования нейронной сети заключается в том, что она защищает исследователей от определенной степени предвзятости, которая обычно присуща созданию любого рода прогнозов. Получив набор данных, нейронная сеть вслепую оптимизирует соответствие историческим данным и полностью устраняет человеческую предвзятость из процесса. Однако это не означает, что этот процесс не может быть предвзятым. Смещение все еще может быть внесено путем выбора наборов данных, используемых для обучения нейронной сети. Основная слабость этой модели - также одна из ее самых сильных сторон. Непрозрачный характер модели устраняет большую часть систематической ошибки, обычно присутствующей при прогнозировании, но также делает ее очень трудной для глубокого анализа. Результаты предстоящих промежуточных выборов в Палату представителей будет интересно сравнить с модельными прогнозами.

ПРИЛОЖЕНИЕ

Таблица с данными: https://docs.google.com/spreadsheets/d/1oqODh1eXi80oltRlFolRgdx5nkdhsf1fFGONOLHpFPM/edit?usp=sharing

Я хотел бы поблагодарить Школу Шиллинга для одаренных детей за предоставленное мне время и место для этого исследования, а также доктора Франка, который был моим научным консультантом в ходе этого проекта.