За последние десять лет было выпущено более 29 000 англоязычных телешоу. Некоторые сериалы довольно успешны и выходили в течение нескольких сезонов — например, Теория большого взрыва, которая также является одной из моих любимых. Премьера сериала Теория большого взрыва, премьера которого состоялась в 2007 году, длилась более 11 сезонов.

В то же время многие шоу не продержались дольше своего пилота. Поэтому я не мог не задаться вопросом: от чего зависит количество сезонов в сериале?

Чтобы ответить на этот вопрос, я зашел на известный сайт обзоров фильмов и телепередач. Моя цель состояла в том, чтобы использовать машинное обучение, чтобы выяснить, можно ли предсказать количество сезонов, которое может быть у шоу, на основе его телевизионного рейтинга, популярности и других характеристик.

Наборы инструментов

Пакет Python: BeautifulSoup, Scikit-learn

Метод: параллельные вычисления, порядковая линейная регрессия, регрессия ElasticNet.

Рабочий процесс

Скрапинг данных

Я собрал информацию о сериале с веб-сайта IMDb, используя BeautifulSoup, который представляет собой пакет Python для анализа документов HTML и XML. Затем я написал программу на Python, которая с использованием параллельных вычислений помогла мне собрать информацию из 20 000 телешоу менее чем за 2 часа. С веб-страницы IMDb были взяты семь функций, включая пять числовых переменных (популярность, время выполнения, год выпуска, рейтинг и количество голосов) и две категориальные переменные (жанр и лицензирование). Для каждого сериала я также извлек общее количество сезонов и серий.

Очистка данных

  • Преобразование строк в числовые значения.
  • Удалить нулевые данные. Из 20 000 телесериалов только 1521 телесериал содержит данные с 7 полными характеристиками.
  • Свернуть категориальные переменные и преобразовать их в фиктивные переменные: 8 категорий лицензирования (TV-G, TV-Y7 и т. д.), 24 категории жанров (семейный, роман и т. д.).

Исследование данных

Существуют четыре основных предположения, которые оправдывают использование моделей линейной регрессии для целей вывода или предсказания: линейность и аддитивность отношений между зависимыми и независимыми переменными, статистическая независимость ошибок, гомоскедастичность ошибок и нормальность ошибки. распределение.

Я начал с использования матрицы тепловых карт корреляции, чтобы исследовать зависимость между моими входными переменными. Сильных корреляций обнаружено не было. Я также обнаружил, что большая часть моих данных сильно искажена. Например, гистограмма показывает, что большинство сериалов прекращают сниматься после первого сезона. Поэтому я применил преобразование журнала для нормализации данных.

Построить модель регрессии

Сначала данные были случайным образом разделены на набор данных для обучения и набор данных для тестирования с пропорциями 90% и 10% соответственно. Я использовал значение R-квадрата в качестве эталона для выбора оптимальной модели. После сравнения модели порядковой линейной регрессии (OLM), полиномиальной регрессии 2-го порядка и порядковой линейной регрессии с регуляризацией l2 (гребенчатая регрессия) я решил выбрать гребенчатую регрессию, поскольку она дает более высокий R-квадрат без переобучения модели. Для гребневой регрессии я использовал 10-кратную перекрестную проверку.

Поиск по сетке был применен для нахождения оптимального параметра настройки в регрессии Риджа, и лучший параметр настройки равен 5,3.

Из-за низкой сложности модели дисперсия относительно невелика. Высокая предвзятость (выделено красным кругом), наблюдаемая в остаточном сюжете, в основном связана с ток-шоу, новостными программами и игровыми шоу, которые, несмотря на то, что транслируются более 10 лет, имеют относительно низкие рейтинги. Например, телесериал Последнее слово с Лоуренсом О’Доннеллом — это часовая вечерняя новостная и политическая программа на канале MSNBC. Он охватывает 9 сезонов с 1286 сериями, датируемыми 2010 годом, но рейтинг составляет всего 6,0.

Вывод

Более высокий рейтинг и количество голосов, а также большее количество людей, проявляющих интерес к конкретному телевидению, определенно помогут ему продержаться дольше.

Согласно Телевизионным родительским рекомендациям, если в сериале есть материалы, не подходящие для детей, вероятность того, что он будет закрыт раньше, выше.

Будущая работа

Двигаясь вперед, я хочу добавить больше функций для каждого сериала. Такие параметры, как звездные актеры и актрисы, режиссеры, писатели, большее внимание к определенным жанрам и перекрестные ссылки на бюджет на телевидении, будут способствовать созданию более надежной модели.