Подсказка: это будет очень близко

С заходом солнца в 2019 году мало что вырисовывается на горизонте больше, чем предстоящие президентские выборы. Ожидается, что явка побьет современные рекорды, и многие считают, что это будет одно из крупнейших политических событий в истории Америки.

В течение следующих 12 месяцев в жилых комнатах по всей стране мы будем задавать одни и те же вопросы. Кто победит? Какие состояния они несут? Почему они победят?

Чтобы помочь получить первые ответы - и вдохновившись другими подходами, я построил регрессионную модель, которая предсказывает, что произойдет в каждом штате США.

Методология

Перед тем, как погрузиться в подробности, ниже я вкратце расскажу, как я построил эту модель. Если вас меньше интересуют технические детали, не стесняйтесь переходить к разделу «Основные выводы».

Я поставил задачу регрессии, которая предсказывает процент голосов, которые кандидат от Демократической партии получит на всеобщих выборах, от общего числа голосов, отданных либо за демократа, либо за республиканца.

Данных было мало, поэтому я проанализировал только период с 1976 по 2019 год. Я выбрал модель и функции на основе схемы перекрестной проверки временных рядов. Каждый год выборов прогнозировался с использованием только предыдущих лет. Например, модель, обученная предсказанию выборов 1980 года, использовала данные только за 1976 год, в то время как модель, обученная предсказанию выборов 2016 года, использовала данные за 1976–2015 годы.

Одним из следствий такого подхода является то, что требуется несколько лет, прежде чем мы получим стабильные результаты. Таким образом, окончательная результативность (R-квадрат) оценивается с использованием среднего результата за последние 4-6 выборов.

Ниже приведена диаграмма этого подхода, где каждый период времени «Тест» является прогнозом для всех штатов в рамках одних всеобщих выборов.

Ключевые выводы

Штаты обычно голосуют последовательно

Первое, на что я обратил внимание, это то, насколько хорошо предыдущие всеобщие выборы предсказывают следующие. Возможно, неудивительно, что доля голосов мало меняется из года в год, при абсолютном среднем колебании всего 3,7%.

Фактически, за последние сорок лет только в трех штатах наблюдались колебания более чем на 15%:

Два из них были местами рождения кандидата (Обама 2008 г .; родился на Гавайях, Клинтон 1992 г .; родился в Арканзасе). Третий - переворот Джорджии Рейганом в 1984 году - стал частью крупнейшего провала всеобщих выборов со времен первой кампании Рузвельта Демократической партии.

За исключением особых обстоятельств, мы обычно можем получить хорошее представление о штатах, которые будут близки к следующим всеобщим выборам, просто взглянув на предыдущие.

Это экономика, тупица

Согласно предложению Джеймса Карвилла 1992 года - это глупая экономика - следующим фактором, на который я обратил внимание, был экономический рост. Для каждого года выборов я смотрел на рост реального ВВП за предыдущий год, который является общепринятым показателем здоровья экономики. График этой переменной против средней доли голосов демократов дает нам отрицательную связь:

В среднем, худшая экономика лучше для кандидата от Демократической партии. Когда экономика страдает, средний класс борется. Когда средний класс борется, прогрессивная политика, как правило, вызывает больший отклик.

Самыми большими исключениями из этой общей закономерности были 1996 и 2000 годы - два года, когда доля голосов демократов была довольно высокой, несмотря на сильную экономику.

Промежуточные выборы как сигнал

Я также посмотрел на процент голосов, которые демократ получил на последних выборах в Конгресс. Теория заключается в том, что среднесрочные результаты позволяют оценить, как страна относится к правящей партии.

Чтобы создать эту переменную, я объединил общее количество голосов как в Палате представителей, так и в Сенате, и удалил все расы, в которые не входили одновременно демократ и республиканец.

Между двумя переменными действительно существует небольшая взаимосвязь. Результативность партий в гонках в Конгресс ассоциируется с выступлениями на всеобщих выборах.

При добавлении к модели эта функция дает скромный, но явный прирост в предсказательной способности.

Рейтинг одобрения

Последняя переменная, которая показала многообещающие, - это рейтинг одобрения действующего президента перед всеобщими выборами. В годы, когда демократ не находился у власти, я вычитал рейтинг одобрения республиканцев из 1. Например, рейтинг одобрения Джорджа Буша составлял 39% в 1992 году, поэтому я преобразовал его в 61% в пользу демократа.

Я снова построил график зависимости переменной от средней доли голосов демократов:

Как и ожидалось, мы обнаружили, что более высокое «одобрение демократов» связано с лучшими показателями демократов на всеобщих выборах.

Оценка эффективности

Используя приведенные выше идеи, я разработал две модели. Первый включает только три переменные: «Доля голосов, проголосовавших за предыдущий год», «Рост ВВП за предыдущий год» и «Доля голосов демократов в среднесрочной перспективе». Второй использует эти 3 переменные, но также включает «одобрение демократов».

Я построил две модели по двум причинам:

  1. Четырехфакторная модель работает лучше, чем трехфакторная, но только при оценке последних четырех выборов (2004–2016 гг.). Трехфакторная модель работает лучше, если мы посмотрим на предыдущие 6 выборов (1996–2016 гг.). Я подозреваю, что это может быть связано с отсутствием обучающих данных при перекрестной проверке, но это трудно сказать наверняка. Обе оценки дают нам большую гибкость в интерпретации.
  2. Четырехфакторная модель включает данные рейтинга одобрения в октябре - непосредственно перед выборами - которых у нас в настоящее время нет на 2020 год. В результате мы вынуждены оценивать рейтинг одобрения Трампа в октябре как его рейтинг одобрения сегодня. Это делает 4-факторную модель динамичной. По мере обновления оценки рейтинга одобрения в течение года мы будем корректировать наши прогнозы.

Ниже приведены сводные характеристики каждой модели, измеренные с помощью R²:

Давайте сделаем прогнозы на 2020 год, имея достаточно высокие и стабильные показатели.

Прогноз на 2020 год

Ниже представлены прогнозы на выборы 2020 года. Чтобы получить этот результат, я усреднил оценки двух моделей вместе и сгруппировал штаты в 5 категорий на основе прогнозируемой доли голосов демократов.

  1. Сильный республиканец: ‹40% демократ

'Вайоминг (25%)', 'Западная Вирджиния (30%)', 'Оклахома (31%)', 'Айдахо (32%)', 'Северная Дакота (32%)', 'Южная Дакота (34 %) »,« Кентукки (35%) »,« Алабама (35%) »,« Арканзас (36%) »,« Теннесси (37%) »,« Юта (37%) »,« Небраска (37%) » ',' Луизиана (39%) ',' Канзас (40%) '

2. Экономный республиканец: демократ на 40–45%

'Монтана (40%)', 'Индиана (41%)', 'Миссисипи (41%)', 'Миссури (41%)', 'Аляска (42%)', 'Южная Каролина (43%) '

3. Подбросить: 45–55% демократ

«Техас (46%)», «Айова (46%)», «Огайо (46%)», «Джорджия (47%)», «Аризона (48%)», «Северная Каролина (49%). », « Флорида (49,37%) »,« Висконсин (50,02%) »,« Мичиган (50,39%) »,« Пенсильвания (50,41%) »,« Миннесота (50,89%) »,» Нью-Гэмпшир (51%), Мэн (51%), Невада (52%), Колорадо (53%), Вирджиния (53%)

4. Худой демократ: демократ на 55–60%

«Делавэр (56%)», «Орегон (56%)», «Нью-Мексико (56%)», «Нью-Джерси (57%)», «Коннектикут (57%)», «Вашингтон (59%). ) ',' Род-Айленд (59%) ',' Иллинойс (60%) '

5. Сильный демократ: 60% + демократ

«Мэриленд (63%)», «Нью-Йорк (64%)», «Массачусетс (65%)», «Калифорния (66%)», «Вермонт (67%)», «Гавайи (69%) ',' Округ Колумбия (91%) '

Окончательные результаты и дальнейшие шаги

Если этот подход к моделированию достигнет идеальной точности в 2020 году, ниже приведены результаты выборов:

Количество голосов на выборах демократов: 279

Голосований на выборах республиканцев: 259

Однако стоит отметить, что в категории «подбрасывание» находится 16 штатов, каждое в пределах 5% от перехода к другой стороне. Также есть 5 штатов, которые попадают в пределы диапазона 1%: Флорида (49,37%), Висконсин (50,02%), Мичиган (50,39%), Пенсильвания (50,41%) и Миннесота (50,89%).

Учитывая такие точные прогнозы, мой главный вывод состоит в том, что выборы должны быть очень близки. Фактически, если в модели не будет Висконсин, и только Висконсин, мы увидим ничью 269–269.

Само собой разумеется, что модель не может охватить все важные факторы. В частности, в нем не говорится о кандидатах, не занимающих пост президента, и о том, насколько они привлекательны для ключевых колеблющихся государств в стране.

Тем не менее, модель обеспечивает прочную основу для понимания и обсуждения различных путей к победе для каждой стороны. В моем следующем посте я более подробно рассмотрю эти стратегии и возможные результаты.