В этом блоге я покажу вам, как я решил задачу регрессии. В этом задании нам предоставляются метаданные о более чем 7000 прошлых фильмов из базы данных фильмов, чтобы попытаться спрогнозировать их общий мировой кассовый доход.

Цели:

  1. Предсказать их общий мировой кассовый доход.
  2. Минимизируйте разницу между прогнозируемым и фактическим доходом (RMSE).

Исследование данных

Фильмы отмечены id. Точки данных включают актерский состав, съемочную группу, ключевые слова сюжета, бюджет, постеры, даты выпуска, языки, производственные компании и страны.

давайте изучим данные. Я нанес на график количество отсутствующих значений по функциям. Это помогает нам удалить функции, которые бесполезны.

Соедините графики бюджета, доходов, популярности и времени выполнения.

Количество выпущенных фильмов по годам. Это показывает, что количество выпущенных фильмов постепенно увеличивается.

количество выпущенных фильмов в месяц

средний доход по дням недели

средний доход по дням в месяце

средний доход по языку

фильмы производства разных компаний

выручка от фильмов продюсерскими компаниями

Количество фильмов, снятых на языке

Доход от фильмов, снятых на языке

Средняя популярность по годам

Особенности

мы добавляем некоторые функции, чтобы мы могли получать точные прогнозы.

  1. Инфляция Бюджет
  2. средний год популярности
  3. соотношение времени выполнения бюджета
  4. коэффициент популярности бюджета
  5. коэффициент бюджетного года
  6. коэффициент популярности года выпуска
  7. количество слов в заголовке
  8. обзор количества слов
  9. количество слов в слогане
  10. среднее время работы по годам
  11. средняя популярность по годам
  12. средний бюджет по годам
  13. средний бюджет по годам

Модели

После характеристики я выполнил регрессионные модели Random Forest, LightGbm и XGBoost.

Из всех этих моделей каждая модель имела среднеквадратичную ошибку 0,65, 0,66 и 0,58 соответственно.

XGboost хорошо работал с RMSE 0,58.