SHAP значения режиссера, жанра, актеров и т. д.

В этой статье я использую набор данных около 750 рождественских фильмов, взятых с сайта IMDb. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор фильмов с известными рейтингами IMDb;
  • выбор фильмов с достаточно продолжительным временем просмотра (65 минут или больше);
  • группировка среды просмотра фильма в более крупные ячейки;
  • извлечение информации об отдельных кинозвездах и жанрах с помощью CountVectorizer, берущего только элементы с не менее чем 6 появлением в наборе данных;
  • кодирование редких категориальных переменных (режиссер, описание и рейтинг фильма) с не более чем 60 различными категориями в каждом столбце и не менее 6 записей в каждой категории;
  • наконец, удаление неиспользуемых столбцов, записей с нулевыми значениями и отдельных категорий.

В результате мы получили очищенный набор данных, содержащий 562 фильма с рейтингом от 0 до 10.

Шаг 2 — настройка модели машинного обучения для прогнозирования оценок пользователей

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 0,87 балла, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели примерно на 0,90 балла (при том же strong>около 6,1 балла за каждый фильм).

Шаг 3 — объяснение полученной модели машинного обучения

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы ценности SHAP выражаются в рейтинговых баллах.

Во-первых, мы изучаем диапазон значений SHAP для 30 наиболее интересующих нас функций:

Как мы видим, наиболее важными функциями для прогнозирования рейтинга пользователей для рождественских фильмов IMDb являются сертификат рейтинга, режиссер. strong> имя, время выполнения фильма, жанр фильма и наличие в сюжете определенных звезд.

Теперь рассмотрим индивидуальные особенности.

Что касается рейтинговых сертификатов, самые высокие оценки пользователей связаны с пройдено, PG-13, >Утвержденные и сертификаты TV-G:

Что касается кинорежиссеров, мы видим, что самые высокие оценки пользователей связаны с Терри Ингрэмом, за которым следует Майкл М. Скотт , Дэвид Виннинг, Рон Оливер и Дон МакБрарти:

Что касается времени просмотра фильмов, самые высокие оценки пользователей связаны с более продолжительными фильмами (2 часа просмотра или более). :

Что касается жанров кино, неудивительно, что мы видим, что самые высокие оценки пользователей связаны с Анимацией, Фэнтези. strong> и Музыка:

Наконец, что касается имен звезд, самые высокие оценки пользователей связаны с Терил Ротери, за которой следует Кэндис Кэмерон Буре , Найл Мэттер, Рэйчел Бостон и Эндрю У. Уокер:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.