Как наука о данных и машинное обучение революционизируют киноиндустрию

Где математика сочетается с коммерцией

Наука о данных и машинное обучение привлекают внимание всего мира, по крайней мере, с последнего десятилетия. Все, от студентов-информатиков до студентов, изучающих бизнес, стремятся попробовать свои силы в использовании этой технологии, чтобы улучшить процесс принятия решений, превратив его в эмпирический процесс, а не инстинктивный. Это, безусловно, лучший подход, поскольку инстинктивные или «интуитивные» решения часто подсознательно включают предубеждения и не являются объективными.

Однако использование моделей Data Analytics для улучшения процесса принятия решений в организациях - не новая концепция. Бейсбольная команда Oakland Athletics, возглавляемая помощником генерального директора Полом ДеПодеста, использовала саберметрию, чтобы принимать более обоснованные и объективные решения при поиске игроков. Sabermetrics - это эмпирический анализ бейсбольных игр, который можно использовать для поиска игроков, которые могут быть недооценены или недооценены из-за некоторых поверхностных «дефектов» и которые могут оказаться отличным выбором для своей команды. Об этом говорится в получившем премию Оскар фильме 2011 года Moneyball с Брэдом Питтом и Джоном Хиллом в главных ролях.

Хьюстон Рокетс, баскетбольная команда НБА, использовала аналогичный подход для оптимизации своих стратегий игроков, поднявшись на несколько позиций в рейтинге за 3 года с 2014–2017.

Наука о данных и фильмы

Переходя к применению моделей анализа данных и машинного обучения в индустрии развлечений, мы рассмотрим приложение машинного обучения, созданное двумя исследователями, Майклом Т. Лэшем и Кан Чжао, из Департамента компьютерных наук и менеджмента (соответственно) в Университет Айовы. Вы можете получить доступ к их подробному исследованию здесь: https://arxiv.org/pdf/1506.05382v2.pdf

Когда мы начинаем говорить о кинопроизводстве, мы должны коснуться вездесущей дилеммы кинопродюсеров и финансистов: кассовые сборы.

Производство фильмов по большей части похоже на инвестирование в фондовые рынки: у вас может быть общее представление о том, какой фильм может иметь хорошие кассовые сборы, а какой - провалиться. Мы наблюдаем это каждый день с фильмами, которые должны быть блокбастерами с мегазвездами в хэдлайнах, которые взрывают кассовые сборы и спящие хиты: фильмы независимого производства, которые приносят несколько миллионов долларов.

Ключевой термин, который здесь часто упускают из виду, - это рентабельность инвестиций. Существует несколько сложных аналитических моделей, которые пытаются предсказать кассовые сборы или популярность фильмов. Однако они не учитывают бюджет и, следовательно, рентабельность инвестиций. Фильм может заработать 150 миллионов долларов в прокате, но если его бюджет составлял 180 миллионов долларов, тогда он потерял деньги, в то время как фильм, который заработал 20 миллионов долларов при бюджете в 3 миллиона долларов, очень прибылен, и продюсеры захотят пойти. с последним.

При построении прогнозной модели дохода от фильма невероятно важна разработка функций. В общем, фильм можно изучать или анализировать на основе трех основных категорий характеристик.

Функции на основе аудитории
Функции, основанные на выпуске
Особенности фильма

Функции на основе аудитории включают все, что касается восприятия фильма аудиторией как оптимистичного или пессимистического: их можно получить из твитов о фильме, объема обсуждений и анализа настроений критиков и комментариев к трейлерам. YouTube.

Особенности выпуска включают количество кинотеатров, в которых был показан фильм, время года выпуска, количество конкурирующих фильмов и т. д.

Особенности фильма включают подробную информацию об актерском составе и о том, о чем сам фильм. В актерском составе главную роль или «звезду» важно проанализировать и оценить на предмет их «звездной силы», которая рассчитывается на основе их прошлых прибыльных предприятий. Кроме того, модель также использовала социальную сеть между участниками, формируя совместную сеть, чтобы оценить, может ли какое-либо предыдущее сотрудничество между ними положительно повлиять на их химию. С точки зрения того, о чем был фильм, использовались жанр, рейтинг MPAA и синопсис сюжета.

Тем не менее, Лэш и Чжао хотели создать прогнозную модель, которая могла бы взять то, что мы знаем о фильме на этапе подготовки к производству, и предсказать, может ли он быть прибыльным с точки зрения кассовых сборов. Следовательно, в их ранней модели прогнозирования из трех единственных функций, основанных на фильмах, можно было использовать, поскольку прием аудитории и детали выпуска оцениваются в пост-продакшене.

Набор функций, который использовался в основном, был четырехкратным:

«Кто» - кто был задействован в фильме: звездная сила главных ролей, звездная сила режиссера и химия между актерами.
«Что» - о чем фильм ~ интерес аудитории к жанру, метаданным, сюжетным синопсам.
«Когда» - когда фильм выходит в прокат.
«Гибридные» характеристики - соответствие между «что» и «кто» и соответствие между «что» и «когда».

Системная структура

Схема MIAS («Система обеспечения качества киноинвесторов»), предложенная Лашем и Чжао, показана на рисунке 1.

Рамки состоят из четырех этапов:

Сбор данных: модель основана на исторических данных, извлеченных из IMDb и BoxOfficeMojo. Первый использовался для общих обзоров фильмов и извлекался через IMDb API, в то время как BoxOfficeMojo имеет более подробную информацию о бюджетах, доходах и т. Д., А исследователи использовали простой веб-скребок, поскольку у него нет API.
Очистка данных. Затем данные были очищены, преобразованы и объединены в структурированную базу данных. Были удалены посторонние символы, которые могли помешать сопоставлению заголовков, и был использован стеммер носильщика для удаления таких стоп-слов, как "the."
Разработка функций. Несколько функций были созданы, как упоминалось ранее, чтобы сформировать «гибриды» в дополнение к функциям «кто, когда» и «что».
Обучение. Благодаря хорошо продуманному набору функций была обучена прогностическая модель. Перекрестная проверка использовалась для выбора оптимальных параметров, а также для выбора алгоритма, который работал лучше всего.

Функциональная инженерия

I. "Кто" Особенности

Звездная сила. Звездная сила актеров или режиссеров неизбежно является важным фактором при создании фильма. Они поражают воображение публики и приносят прибыль. Поскольку цель - прогнозировать прибыльность, учитывались выручка и доходность прошлых фильмов звезд. Здесь представлены 5 функций:

Срок полномочий актера - их время в индустрии
Actor Gross - доход, полученный от фильмов за время их пребывания в должности.
Режиссер Гросс - отвратительно за свои прошлые фильмы.
Прибыль актера - прибыль от прошлых фильмов.
Прибыль режиссера - прибыль от фильмов, снятых в прошлом.

Для каждой из этих характеристик были взяты общее и среднее, чтобы дополнить более широкий анализ.

2. Сетевые функции. Чтобы уловить характеристики команды, Лэш и Чжао построили динамичную социальную сеть для сотрудничества между участниками на основе их прошлого сотрудничества. Проще говоря, сеть представляла собой комбинацию ребер (соединений) между узлами (акторами), основанную на их прошлом сотрудничестве, и чем больше, чем пара акторов сотрудничала в прошлом, тем толще будет их край. Таким образом, для любого года агрегированная сеть представляет собой сеть прошлых и настоящих совместных работ.

Сеть состоит из следующих статических элементов:

Однородность сети - для каждого фильма разнообразие команд измерялось путем изучения структурного сходства между актерами путем определения всех пар актеров с помощью функции косинусного сходства. Более высокое сходство предполагает, что члены команды работали с похожими коллегами (и часто друг с другом).
Средняя степень - представляет собой уникальное сотрудничество, предназначенное для измерения нового опыта, привнесенного в съемочную площадку.
Общая и средняя промежуточная центральность - те люди, которые обладают высоким социальным капиталом и могут объединять группы, не связанные иным образом.
Сотрудничество между актером и режиссером - мы должны учитывать частоту их сотрудничества, а также его прибыльность.

В дополнение к этому, сеть также состоит из двух динамических функций, касающихся агрегированных сетей, когда обучается новый фильм, и между узлами формируются новые ребра (отношения акторов) и как это влияет на сеть в целом.

II. «Какие» особенности

Чтобы отразить, о чем фильм, «что» включали в себя жанр (комедия, боевик, мелодрама, триллер и т. Д.), А также рейтинг MPAA (PG-13, R), в котором мы ожидаем увидеть фильм. Другой Важной особенностью здесь будет сюжетный синопсис фильма.

Для синопсов можно использовать простые униграммы и биграммы, но они будут иметь высокую размерность и, следовательно, привести к проблеме разреженности данных. Вместо этого в модели используется скрытое распределение Дирихле (LDA), которое принимает текстовый корпус синопсисов сюжета в качестве входных данных и выводит группу тем. Каждому синопсису сюжета назначается вероятностное распределение по всем темам. Такое распределение тем фильма отражает его сюжет и может использоваться как функция для прогнозного моделирования.

III. Особенности «Когда»

Время выхода фильма, включая время года, а также общая прибыльность других фильмов в этом году / десятилетии влияет на кассовые сборы фильма, и, следовательно, эти два фактора включают:

Средняя годовая прибыль - за год, предшествующий году выпуска данного фильма, в соответствии с рыночными условиями.
Дата выпуска - для включения фестивальных или праздничных выпусков и т. д.

IV. «Гибридные» функции

Может быть важно сформировать команду актеров, основываясь на их предыдущем опыте работы с жанром планируемого фильма, а не только на их звездных способностях. По этой причине важно смотреть на комбинации функций.

«Что» + «Кто»

Для актера у нас может быть вектор доли фильмов, которые он снял для каждого жанра (для 26 жанров в этой модели), чтобы мы могли представить сильные стороны каждого актера в векторе как большую долю фильмов, которые они сделали. Например, Адам Сэндлер может иметь высокое значение для комедийного узла в своем векторе, в то время как Арнольд Шварценеггер может иметь действие как самую высокую долю, поскольку он снял большинство фильмов в жанре боевиков.

Точно так же для каждого фильма у нас может быть вектор жанра фильма, поскольку фильм не обязательно должен быть только одного жанра, и те актеры, чьи сильные жанры соответствуют основному жанру фильма, могут больше подходить для него. Таким образом, используя эти метрики, Лэш и Чжао создали три функции, учитывающие жанровую экспертизу актера по отношению к фильму, а также функцию новизны актеров, которая обращается к звездам, появляющимся в фильмах, которые для них не подходят, например, к появлению Адама Сэндлера. в серьезных, драматических ролях. Это потому, что звезды новинок сами по себе могут быть аргументом в пользу продажи.

2. «Что» + «Когда»

Потребительские предпочтения со временем меняются. В то время как романтические комедии были основным продуктом в 90-х и 2000-х годах, сейчас они гораздо реже, поскольку их место в прокате заняли фильмы о супергероях и фильмы ужасов. Между тем конкуренция также может повлиять на коллекцию фильма, если он выпускается одновременно с несколькими конкурентами. Таким образом, мы учитываем как «когда» фильм был выпущен, как фильмы того или иного жанра работали в предыдущем году, так и уровень конкуренции во время выпуска фильма. Таким образом были использованы следующие функции:

Годовой процент прибыльности по жанрам - это процент прибыльных фильмов того же жанра, что и данный фильм, в году, предшествующем году его выпуска. Эта характеристика отражает степень успеха фильмов этого жанра.
Годовая взвешенная прибыльность по жанрам - рассчитывается как взвешенная сумма косинусных сходств фильма с аналогичными фильмами предыдущего года.
Конкурс - показывает, какие еще фильмы будут выпущены в аналогичный период времени. Он рассчитывается с учетом средней звездности всех других фильмов, выпущенных в течение 1 месяца после выхода фильма.

Набор данных

Исходный набор данных, собранный с помощью BoxOfficeMojo и IMDb, был сужен до 11-летнего периода с 2000 по 2010 год (включительно), поскольку этот период появился достаточно недавно, чтобы отразить текущее состояние отрасли, и соответствующие данные о доходах доступны легко.

Фильмы, по которым не было данных о кассовых сборах, были удалены; также удалялись те, у которых был неизвестный рейтинг или неизвестный жанр. Документальные фильмы также были удалены, так как они не выходят в кинотеатры. Кроме того, были удалены франшизные фильмы и сиквелы, поскольку их успех во многом зависит от успеха их приквелов, и на них могут влиять совершенно разные факторы.

Окончательный набор данных состоял из 2506 фильмов, распределение которых (по жанрам) показано ниже.

За исключением зарубежных фильмов, наш набор данных достаточно репрезентативен для фильмов, выпущенных в тот период, поскольку данные о доходах для иностранных фильмов может быть трудно стандартизировать. На основе аннотаций сюжета алгоритм LDA сгенерировал 30 тем. Основные ключевые слова по каждой из этих тем перечислены ниже.

В то время как эксперимент предсказывает успех 2506 фильмов, сеть сотрудничества, созданная для исследования, включает сотрудничество между актерами во всех 14 097 фильмах в нашем исходном наборе данных.

Успех фильма

Что касается показателя успеха, рентабельность инвестиций использовалась для получения точного представления о прибыльности фильма. Он учитывает как прибыль, так и бюджет, и, конечно же, чем выше ROI, тем прибыльнее фильм. Формула имеет следующий вид:

Классификация

Предсказание предполагаемого успеха или провала фильма может быть задачей классификации, при которой любой данный фильм классифицируется как «прибыльный» или «убыточный». Однако в отрасли не существует золотого стандарта относительно того, какой ROI считается идеальным, кроме того факта, что чем выше, тем лучше.

Как для двоичной, так и для мультиклассовой классификации было опробовано множество алгоритмов, в том числе:

Логистическая регрессия
Наивный байесовский
Многослойное восприятие
Деревья решений
Случайный лес
Классификатор LogItBoost

Лучший алгоритм был выбран на основе наилучшей общей производительности на основе следующих шести показателей. Все результаты оценивались на 10-кратной перекрестной проверке, где более высокое значение указывает на более высокую производительность.

Область под характеристической кривой приемник-оператор - график зависимости частоты ложных срабатываний от истинных положительных результатов, где значение AUC, равное 1, соответствует идеальной классификации, а 0,5 - случайному предположению.
Точность классификации - процент правильно спрогнозированных экземпляров.
Точность - количество фильмов, классифицированных как успешные, но фактически успешных, деленное на все фильмы, классифицированные как успешные.
Напомнить - количество фильмов, классифицированных как успешные, которые действительно успешны, деленное на все фильмы, которые действительно успешны.

В дополнение к этому, производительность модели сравнивалась с производительностью двух эталонных моделей из предыдущих исследований. Они были выбраны, поскольку следовали аналогичной модели раннего прогнозирования.

В случае бинарной классификации фильм классифицируется на один из двух классов: успешные или неудачные фильмы. Исследователи оценили 2 границы принятия решения, и обе границы гарантировали достижение определенной рентабельности инвестиций в случае успеха фильма.

Первая граница решения классифицирует фильм как успешный, если он входит в 30% лучших фильмов, что соответствует рентабельности инвестиций ≥ 24%. Классификатор случайного леса (n = 200) и классификатор LogItBoost показал наилучшие результаты с классификатором случайного леса, ведущим по показателям AUC, точности и напоминания, тогда как LogItBoost имел более высокую точность. Ниже приведена таблица, в которой сравниваются их характеристики, а также их характеристики без гибридных функций.

2. Вторая граница дала ROI ≥ 67%. По сравнению с границей принятия решения о 30% рентабельности инвестиций, эта граница еще больше поднимает планку успеха фильма. Определение прибыльности таким образом упростило задачу прогнозирования, о чем свидетельствует повышение производительности модели. Самые эффективные алгоритмы могут достигать AUC и точности более 0,9.

Очевидно, что новые гибридные функции вносят огромный вклад и, следовательно, доказывают свою эффективность. В обоих случаях модель также сохраняет преимущество над эталонными моделями, постоянно обеспечивая ~ 25% лучшую производительность.

Заключение

Исследователи Майкл Лэш и Кан Чжао предложили в своем исследовании модель MIAS (Система обеспечения безопасности инвесторов в кино), чтобы помочь инвесторам принимать решения о производстве фильмов. Он использовал исторические данные о прибыльности фильмов, социальных сетях между соавторами, тенденциях рынка, вкусах аудитории, а также множество новых гибридных функций, чтобы достичь впечатляющего уровня точности в своих прогнозах. Помимо очевидного применения киностудиями, он также может иметь теоретическое значение, например, раскрытие понимания того, как актеры и режиссеры взаимодействуют друг с другом, а также их влияние на успех фильма. В дальнейшем использование сценариев фильмов может быть интересным инструментом при оценке фильмов, где мы можем использовать аналогичный анализ LDA.

В целом, эта модель весьма успешна в прогнозировании прибыльности фильмов на ранней стадии и может стать отличной отправной точкой для построения прогнозных моделей, которые будут использоваться в отрасли кинопроизводителями, а также инвесторами.