Предсказание оскаров с помощью предпочтительного машинного обучения

Оскар и их предпочтительное голосование побудили меня создать новый подход машинного обучения, имитирующий эту систему голосования.

Прошлый год был отличным годом для кино, и если вы, как и я, греетесь после увлечения популярностью Movie Pass и все еще смотрите много фильмов в кинотеатрах, то вы знаете Однажды в Голливуде , Паразит, 1917 и многие другие фильмы доставили уникальный кинематографический опыт. Каждый год в воскресенье на церемонии вручения Оскара Голливуд собирается вместе и дает себе большие похлопывания по плечу. Самый большой приз вечера - приз за лучший фильм, который может закрепить фильм в анналах истории кино. В отличие от других 23 наград, присуждаемых в «Ночь Оскара», желанная награда за лучшую картину выбирается с использованием метода, называемого преференциальным голосованием, который является более сложным, чем традиционное голосование. Подготовка к церемонии вручения «Оскара» этого года и изучение льготного голосования побудили меня написать несколько программ, имитирующих эту систему голосования с использованием машинного обучения.

В этой статье я:

Выберите данные, которые использовались для предсказания Оскара с
Изучите, как работает преференциальное голосование, с точки зрения науки о данных
Продемонстрируйте метод моей собственной разработки, который я называю Случайный лес предпочтительного голосования.
Смоделируйте, что происходит за кулисами голосования за лучшее изображение.
Предскажите победителя за лучшую фотографию в этом году

Я не включаю свой код в эту статью, но вот репозиторий с моими записными книжками, который использовался в этом анализе

Как предсказывать Оскар: набор данных

Чтобы предсказать что-либо с помощью машинного обучения, нам нужен значимый набор данных для обучения нашей модели. В случае гонки за лучший фильм у нас есть девять фильмов 2019 года, номинированных на эту награду. Как бы я ни почитал Оскар (в конце концов, я достаточно заинтересован, чтобы написать эту статью), я не сомневаюсь, что лучший фильм года - это тот, который получит Оскар за лучшую картину. Академия состоит из тысяч членов, работающих в различных областях киноиндустрии, и у каждого из них есть предубеждения, которые приводят к их голосам. Поскольку за голосами стоят реальные люди, мы не можем полагаться на числовые показатели качества фильма, такие как кассовые сборы или совокупные оценки критиков. Но знаете, что хорошо коррелирует с голосами кинематографистов? Другие голоса режиссеров.

Есть множество других шоу, которые составляют «Сезон наград», и избиратели на такие мероприятия, как Награды Гильдии киноактеров и Награды Гильдии режиссеров, часто являются теми же людьми, которые составляют голосование присуждении Премии Оскара. Используя результаты предыдущих выставок наград, таких как SAG, DGA, PGA, Golden Globes и BAFTA, и сочетая это с информацией Оскара, такой как количество номинаций, я могу обучить модель на лучших победителях прошлых лет, чтобы предсказать в этом году. Чтобы получить единообразные данные о фильмах и соглашения об именах, я собрал данные о номинантах и победителях каждого конкурса наград из Википедии и объединил их все вместе в один набор данных на Python с помощью пакетов Pandas и Beautiful Soup.

Как работает преференциальное голосование

Преференциальное голосование, также называемое немедленным повторным голосованием, обычно используется в ситуациях, когда есть много кандидатов только на одно выигрышное место. Оскар использовал эту систему подсчета голосов для определения гонки за лучший фильм с 2009 года, когда число номинантов увеличилось с пяти до десяти. При преференциальном голосовании вместо голосования за один фильм избиратели отправляют бюллетень со всеми ранжированными вариантами, и варианты выбора № 1 подсчитываются как голоса за этот фильм. Затем начинается итеративный процесс, в котором наименее популярный фильм исключается, и все бюллетени повторно оцениваются до тех пор, пока один фильм не наберет более 50% голосов №1. После того, как фильм исключен из всех бюллетеней, бюллетени, в которых ранее удаленный фильм находился на своем месте № 1, теперь перемещаются на первое место в бюллетенях № 2, что увеличивает количество голосов за оставшиеся фильмы. Этот процесс продолжается до тех пор, пока один фильм не наберет более 50% голосов №1, а затем он будет объявлен победителем. Моделирование этого процесса исключения показано ниже.

Критики метода преференциального голосования утверждают, что он вознаграждает фильмы, которые легко нравятся или не вызывают споров, поскольку фильмы, не вызывающие споров, будут примерно в середине рейтинга людей, а спорные фильмы могут быть в верхней части бюллетеней некоторых людей, но в конце других, поэтому они склонны к устранению. Этот эффект был замечен в прошлом году, когда более художественный фильм Рома проиграл более популярному фильму Зеленая книга.

Случайный лес с преимущественным правом голоса

В прошлом мы видели, что преференциальное голосование может изменить результат гонки за лучшее изображение, поэтому я создал модель, которая отражает этот особый метод подсчета голосов. Модель классификатора случайного леса делает прогнозы с помощью ряда декоррелированных классификаторов дерева решений. Вот статья, в которой подробно рассказывается о том, как работает традиционный случайный лес. Как правило, случайный лес учитывает «голос» каждого дерева как балл, основанный на размере листа, и выбирает окончательную метку, по которой класс имеет наибольшее «количество голосов» среди всех деревьев. Для этого случайного леса предпочтительного голосования мы вместо этого используем значения ProbA для каждого фильма в тестовой выборке и используем их для создания рейтинга фильмов с 1-го по 9-е места. Значения ProbA представляют собой вероятность того, что этот элемент относится к классу «Победитель», и представляют более мягкий прогноз, чем бинарная классификация «Победитель» или «Проигравший». Это более мягкое предсказание позволяет нам изменять предсказания с логической классификации на диапазон. Каждое Дерево принятия решений создает один бюллетень, и после того, как весь Лес создал свои бюллетени, начинается повторяющийся процесс преимущественного исключения голосования, чтобы определить выбор Леса в качестве победителя. Используя ранжирование вместо выбора одного класса, мой случайный лес предпочтительного голосования сохраняет информацию, которая в противном случае была бы отброшена традиционным случайным лесом, и снова использует ее позже на этапе исключения и повторного ранжирования при предпочтительном голосовании.

Имитация премии "Оскар"

Используя свой случайный лес при голосовании по преференциальному голосованию, я смоделировал гонку за лучшее изображение этого года. Чтобы декоррелировать каждое дерево решений, я варьировал, какие награды показывают каждое дерево, увиденное, аналогично гиперпараметру max_features случайного леса. В этом моделировании max_features представляет, в какой гильдии может быть член академии с правом голоса, или насколько внимательно они следят за другими наградами в этом сезоне. Я также включил функцию случайного шума для каждого Дерева решений, на котором можно было тренироваться, что отражает врожденную предвзятость каждого избирателя к определенным фильмам. Академия состоит из примерно 7000 уникальных избирателей, поэтому я зажег свой Лес, который вскоре произвел 7000 бюллетеней. После 6 раундов исключения фильма, занявшего последнее место, лучший фильм получил более 50% голосов №1, и моя модель выбрала победителя за лучший фильм ...

Окончательный прогноз

Мой предпочтительный случайный лес для голосования - это новый подход к моделированию Оскара, и я надеюсь, он помог вам немного понять, что входит в голосование за лучшее изображение и случайные лесные классификаторы. плохие парни. Используя собранный мной набор данных фильмов, удостоенных награды, я реализовал мощный инструмент AutoML H2O для обучения 100 различных моделей Random Forest, XBGT и Deep Learning с различными параметрами для прогнозирования Оскаров этого года. AutoML выбрал модель XGBoost, которая правильно предсказала результаты Оскара 147 из 159 фильмов при перекрестной проверке. А какой фильм предсказал этот водоворот моделей? Также 1917! Похоже, что для этого видео все выглядит хорошо, поскольку это предсказали и Preferential Balloting Random Forest, и моя модель AutoML.

Ссылки и приветствия:

Репозиторий Github для этого проекта

Код соскабливания позаимствован у пользователя Github Buzdygan

Паспорт безопасности материалов Университета Сан-Франциско