Вступление

Поскольку это моя первая статья на Medium. Я подумал о том, чтобы написать подробное объяснение моего анализа очень популярного, но распространенного набора данных в рейтинге фильмов IMDB. Любой новичок, начинающий свой путь в науке о данных, наверняка сталкивался с этим набором данных. В сети можно найти различные виды анализа, прогнозного моделирования, статей и т. Д., Но даже если вы этого не сделали, не волнуйтесь. Перед написанием этого я также просмотрел множество блогов, ядер Kaggle и записных книжек GitHub, я все еще считаю, что этот анализ сильно отличается от остальных, и я решил поделиться своими читателями, которые заинтересованы в обучении за пределами мейнстрима: - D

Чтобы вкратце рассказать о моем прошлом, я начал свою карьеру в качестве аналитика, а теперь изучал PG в области науки о данных и машинного обучения, и этот анализ был заданием как часть нашей учебной программы. Таким образом, вся визуализация и анализ, которые я буду проходить в этой статье, были тщательно продуманы нашими преподавателями и отраслевыми экспертами, и поэтому они выделяются среди остальных.

Как мы будем действовать

Я хотел бы заявить, что весь анализ был проведен на Python, а платформа - Jupyter notebook. Любой, кто имеет предварительное знание языка, может легко понять код. Если кто-то хочет получить R-версию, дайте мне знать, я начну делать R-ноутбук. Но я бы посоветовал попробовать воспроизвести то же самое самостоятельно! Это поможет вам учиться.

Прежде чем я начну, я хотел бы изложить ожидания от этой статьи. Эта статья направлена ​​на то, чтобы заставить вас думать как аналитик, как аналитически подходить к бизнес-проблеме, какова бизнес-логика этого и т. д. Она содержит простые коды Python, базовую визуализацию и никакого прогнозного моделирования. потому что цель здесь не в том, чтобы делиться знаниями о кодировании или какой-либо высокоуровневой статистикой. Поскольку это был бы довольно длинный блог, я бы посоветовал читателям не читать все сразу, а попытаться разбить их по частям, а когда вам покажется, что это слишком много, просто остановитесь! добавьте страницу в закладки и вернитесь после чашки кофе !!

Хватит разговоров, давайте погрузимся в это:

Ссылка на набор данных IMDb и описание данных

Набор данных IMDb

«Ваш подход - ваш ключ к успеху»

Следует придерживаться научного подхода к решению любой бизнес-проблемы с использованием имеющихся у нас данных для получения ценных идей и рекомендаций.

Я бы посоветовал всем сначала не видеть код или объяснение. Прочтите различные шаги и попытайтесь решить эту проблему самостоятельно, дайте ей немного времени, а когда вы решите, что этого достаточно, изучите различные фрагменты кода и объяснения!

Удачи !! :-D

Сначала мы выполним обычные шаги, необходимые для анализа, а затем постепенно начнем создавать контекст и решать проблемы.

Импорт библиотек

Импортируйте numpy, pandas, seaborn и matplotlib и назначьте им псевдонимы для удобства использования

Чтение данных

  • Считывание данных о фильмах

Прочтите предоставленный файл данных фильмов и сохраните его в кадре данных фильмов и получите 5 верхних строк кадра данных.

А теперь подумайте!

Что делать дальше после прочтения данных? Собственно, что нам делать дальше? ответ - понять высокоуровневую структуру наших данных, и как нам это сделать?

Вот несколько распространенных способов, которыми обычно следуют аналитики, чтобы получить полное представление о своих данных, изучая их:

  1. Объем
  2. Форма
  3. Типы функций
  4. Статистика функций
  5. Отсутствующие значения

Есть идеи, почему аналитики всегда это делают? - Иногда, когда они обрабатывают огромные наборы данных с сотнями столбцов и миллионами строк, для них становится непростой задачей управлять ими. в целом. Поэтому им важно знать свои данные в четком формате.

  • Проверка фрейма данных

Проверка фрейма данных на измерения, нулевые значения и сводку различных столбцов.

Теперь некоторые результаты кода не добавляются, чтобы ограничить размер статьи.

Хорошо! Итак, что мы здесь получаем? У нас есть измерение, все функции с их типами данных, отсутствующими значениями и базовой статистикой. Этой информации пока достаточно, чтобы получить представление о нашем фреймворке.

А теперь остановитесь на минутку…

Прежде чем мы перейдем к аналитической части, я хочу, чтобы вы провели мозговой штурм следующим образом:

  1. Какую бизнес-проблему мы собираемся решить и какова моя цель? Подумайте!
  2. Какой анализ я хочу провести и почему? Подумайте!
  3. Какое влияние на бизнес я могу оказать своими результатами? Подумайте!
  4. Кто мои конечные пользователи или потребители этого отчета? Подумайте!

Есть несколько способов приблизиться к этому. Здесь упоминается один из них -

Представьте, что я работаю в большом производственном доме, - - -. А мой менеджер ничего не знает, кроме ROI. Он сказал мне: «Огниш, я планирую вложить деньги в новый фильм. Дайте мне отчет, который поможет мне принять решение о том, в какие фильмы мне следует инвестировать, чтобы получить максимальную прибыль »

Вот и все!!

Первое, что я сделаю, это разобью свою проблему по частям и подумаю. Во-первых, позвольте мне посмотреть, как эти разные фильмы показали себя с точки зрения рентабельности инвестиций, а затем кто из них является лучшими исполнителями. Для этого мне понадобится эта основная информация:

  1. Атрибуты фильма
  2. Бюджет фильма
  3. Прибыль от фильма

Прохладный!! Давайте начнем

«Истязайте свои данные, и они признаются !!»

Анализ данных

  • Сокращение цифр для удобства чтения

Цифры в budget и gross слишком большие, что снижает удобочитаемость. Давайте сначала преобразуем единицы измерения столбцов budget и gross из $ в million $.

  • Давайте поговорим о прибыли!
  1. Создайте новый столбец с именем profit, который содержит разницу между двумя столбцами: gross и budget
  2. Отсортируйте фрейм данных, используя столбец profit в качестве ссылки
  3. Извлеките десять самых прибыльных фильмов в порядке убывания и сохраните их в новом фрейме данных - top10

4. Постройте разброс или совместный график между столбцами budget и profit и напишите несколько слов о том, что вы наблюдали.

Вы можете проигнорировать вышеуказанный шаг и использовать стиль и цвет по умолчанию.

Что именно мои данные хотят сказать… ..?

Итак, вот наша первая визуализация. Что мы можем сделать?

Мои наблюдения заключаются в следующем:

  • При индивидуальной проверке бюджета и прибыли оба слегка смещены вправо, что означает, что большинство фильмов имеют положительную прибыль, а бюджеты высоки.
  • Мы можем заметить, что есть несколько фильмов с очень высокими бюджетами, но все же с отрицательной прибылью.
  • Мы видим слегка положительную тенденцию между «бюджетом» и «прибылью», то есть по мере увеличения бюджета прибыль также увеличивается.
  • При бюджете от 0 до 100 млн мы можем увидеть большое количество фильмов, приносящих прибыль от 0 до 300 млн долларов (без учета фильмов с отрицательной прибылью).

Набор данных содержит 100 лучших фильмов с 2010 по 2016 год. Однако диаграмма рассеяния говорит о другом. Вы можете заметить, что есть фильмы с отрицательной прибылью. Хотя хорошие фильмы действительно несут убытки, похоже, что довольно много фильмов с потерями. В чем может быть причина? Давайте посмотрим на это повнимательнее, найдя фильмы с отрицательной прибылью.

5. Извлеките фильмы с отрицательной прибылью и сохраните их в новом фрейме данных - negative_profit

Вы можете найти фильм Tangled в наборе данных? Возможно, вам известен фильм Запутанная история. Хотя это один из самых кассовых фильмов всех времен, по этому результату он имеет отрицательную прибыль. Если вы перепроверите валовую стоимость этого фильма (ссылка: https://www.imdb.com/title/tt0398286/), вы увидите, что валовая стоимость в наборе данных учитывает только валовую внутреннюю стоимость, а не брутто по всему миру. Это верно и для многих других фильмов, также включенных в список.

Отлично !! Мы сделали свой первый анализ… ..

Что дальше?

Теперь, допустим, я хочу узнать о популярных фильмах. Под популярными я подразумеваю, что они имеют хороший общественный резонанс.

Как мы это обнаруживаем?…

Вы могли заметить столбец MetaCritic в этом наборе данных. Это очень популярный веб-сайт, на котором средний балл определяется на основе оценок самых популярных критиков. Во-вторых, у вас также есть еще один столбец IMDb_rating, в котором указывается рейтинг фильма на IMDb. Этот рейтинг определяется путем взятия среднего значения из сотен тысяч оценок общей аудитории.

  • Широкая аудитория и критики

В рамках этого анализа мы определим фильмы с наивысшим рейтингом, которые понравились как критикам, так и зрителям.

  1. Во-первых, вы заметите, что MetaCritic оценка по шкале 100, тогда как IMDb_rating по шкале 10. Сначала преобразуйте столбец MetaCritic в шкалу 10.
  2. Теперь, чтобы найти фильмы, которые понравились как критикам, так и зрителям, а также имеют высокий рейтинг в целом, вам необходимо:
  • Создайте новый столбец Avg_rating, который будет содержать среднее значение столбцов MetaCritic и Rating.
  • Получить список фильмов в порядке убывания Avg_rating

Итак, у нас есть все фильмы в порядке убывания их средней популярности.

Теперь я хочу покопаться еще немного, чтобы узнать, какие фильмы MetaCritic и IMDb_rating в более высоком масштабе и являются очень популярными.

Есть идеи, как это сделать? Подумайте!

«Помните, что не все, что вы хотите, будет исходить из данных, иногда вам нужно проявлять достаточно изобретательности и мыслить как детектив данных, чтобы придумывать собственные формулы, которые, по вашему мнению, могут укрепить искусство анализа. В этом настоящая сила аналитика. Они всегда думают нестандартно !! »

А пока вот оно:

  • Сохраните только те фильмы, в которых абсолютная разница (с использованием функции abs ()) между столбцами IMDb_rating и Metacritic меньше 0,5. Обратитесь к этой ссылке, чтобы узнать, как работает функция abs () - abs ()
  • Отсортируйте эти значения в порядке убывания Avg_rating и сохраните только фильмы с рейтингом выше, чем 8, и сохраните эти фильмы в новом фрейме данных UniversalAcclaim

Отлично! Мы создали собственный новый показатель.

Теперь ваша продюсерская компания хочет снять блокбастер. В вашем фильме будут в основном три главные роли, и компания хочет выбрать для него самых популярных актеров.

Поскольку ваш менеджер не хочет рисковать, он попросил вас выбрать трио, которые уже играли вместе в кино раньше.

Итак, нашей следующей задачей будет-

  • Найдите самые популярные трио - I

Показатель, который я выбрал для проверки популярности, - это лайки в Facebook каждого из этих участников.

Фрейм данных имеет три столбца, которые помогут вам в том же, а именно. actor_1_facebook_likes, actor_2_facebook_likes и actor_3_facebook_likes

Наша цель:

  1. Найдите трио, которые набрали наибольшее количество лайков в Facebook. То есть сумма actor_1_facebook_likes, actor_2_facebook_likes и actor_3_facebook_likes должна быть максимальной.
  2. Найдите 5 самых популярных троек и выведите их названия в список.

Хм, у меня есть топовые популярные актеры, но результат меня не устраивает. Давайте перейдем на новый уровень

  • Найдите самые популярные трио - II

В предыдущей подзадаче вы нашли популярное трио на основе общего количества лайков в Facebook. Давайте добавим к нему небольшое условие и убедимся, что все три актера популярны. Условие: ни один из трех участников в Facebook не должен быть меньше половины от двух других. Например, допустимая комбинация:

  • актерbudgetfacebook_likes: 70000
  • actgrossfacebook_likes: 40000
  • actbudgetfacebook_likes: 50000

Но нижеследующий - нет:

  • актерbudgetfacebook_likes: 70000
  • actgrossfacebook_likes: 40000
  • actbudgetfacebook_likes: 30000

поскольку в данном случае actor_3_facebook_likes равно 30000, что меньше половины actor_1_facebook_likes

Выполнение этого условия гарантирует, что в вашем трио не будет ни одного непопулярного актера (поскольку общее количество лайков, рассчитанное в предыдущем вопросе, ничего не говорит об индивидуальной популярности каждого актера в трио).

Вы можете вручную просмотреть 5 самых популярных троек, найденных вами в предыдущей подзадаче, и проверить, сколько из этих троек удовлетворяет этому условию. Кроме того, какое трио является самым популярным после выполнения условия, описанного выше?

Опять же, время применить логику!

1. Примените рассмотренную выше логику.

2. Получите все тройки, удовлетворяющие условию

3. Также проверьте, есть ли общие тройки между этим и предыдущим результатом.

Теперь я вполне доволен своим результатом. И в списке есть даже мои любимые суперзвезды. Что насчет вас, ребята? Сможете ли вы найти в списке свою любимую звезду?

В фрейме данных есть столбец с именем Runtime, который в основном показывает длину фильма. Было бы интересно посмотреть, как распределяется эта переменная. Постройте histogram или distplot морского рождения, чтобы найти Runtime диапазон, в который попадает большинство фильмов.

  • Анализ времени выполнения

Хорошо, еще одно наблюдение, которое у нас было, мы видим, что большая часть фильмов попадает в интервал 120–130 минут воспроизведения.

Давайте проанализируем фильмы с рейтингом R. Хотя фильмы с рейтингом R являются ограниченными фильмами для возрастной группы до 18 лет, все же подсчет голосов проводится для этой возрастной группы. Среди всех фильмов с рейтингом R, за которые проголосовала возрастная группа до 18 лет.

Все родители в доме, в результате вы, ребята, следите за своими детьми: - P

  • Фильмы с рейтингом R

1. Отфильтруйте фильмы с рейтингом R

2. Отсортируйте их по «CVotesU18» в порядке убывания.

3. Попасть в пятерку лучших

Хм. Похоже, «Дэдпул», «Волк с Уолл-стрит» очень популярны среди молодежи.

Теперь, забегая вперед, заметили ли вы, что существует множество названий столбцов, таких как «CVotes» и «Votes» для различных демографических групп. Можем ли мы вывести что-нибудь из них? Подумайте!

Если я не ошибаюсь, мой менеджер хочет снять фильм с высокой рентабельностью инвестиций. (Всегда возвращайтесь к бизнес-цели). Высокая рентабельность инвестиций означает, что фильм должен быть популярным среди людей, чтобы они покупали на него билеты. Как мы это делаем? Как мы можем использовать эти демографические данные для нашего анализа!

Если вы посмотрите на последние столбцы во фрейме данных, они дают хорошее количественное представление об избирателях (в последнем анализе мы использовали один из столбцов - CVotesU18), а также имели три столбца жанров, указывающих жанры конкретного фильма. . Можно что-нибудь с ними сделать? Подумайте!

Хорошо, это будет заключительный этап нашего анализа, на котором мы проанализируем избирателей по всем демографическим группам, а также посмотрим, как они различаются по разным жанрам. Итак, без лишних слов, давайте начнем с demographic analysis

Демографический анализ

  • Объединение фреймов данных по жанрам

В фрейме данных есть 3 столбца - genre_1, genre_2 и genre_3. В рамках этого анализа нам необходимо агрегировать несколько значений по этим 3 столбцам.

  1. Сначала создайте новый фрейм данных df_by_genre, содержащий genre_1, genre_2 и genre_3, а также все столбцы, относящиеся к CVotes / Votes из фрейма данных movies. Всего нужно извлечь 47 столбцов.
  2. Теперь добавьте столбец с именем cnt в фрейм данных df_by_genre и инициализируйте его равным единице. Мы осознаем использование этого столбца к концу этого анализа.
  3. Сгруппируйте фрейм данных df_by_genre по genre_1 и найдите сумму всех числовых столбцов, таких как cnt, столбцы, относящиеся к столбцам CVotes и Votes, и сохраните его во фрейме данных df_by_g1
  4. Выполнение той же операции для genre_2 и genre_3 и сохранение в них фреймов данных df_by_g2 и df_by_g3 соответственно

5. Теперь, когда у нас есть 3 фрейма данных, выполненные путем группирования по genre_1, genre_2 и genre_3 по отдельности, пришло время объединить их. Для этого добавьте три фрейма данных и сохраните их в новом фрейме данных df_add, чтобы соответствующие значения Votes / CVotes добавлялись для каждого жанра. В пандах есть функция add(), которая позволяет вам это делать. Вы можете обратиться к этой ссылке, чтобы увидеть, как работает эта функция. Добавить панды ()

6. Столбец cnt по агрегированию в основном отслеживает количество появлений каждого жанра. Подгруппируйте жанры, в которых есть не менее 10 фильмов, в новый фрейм данных genre_top10 на основе значения столбца cnt.

7. Теперь возьмите среднее значение всех числовых столбцов, разделив их на значение столбца cnt, и сохраните его обратно в тот же фрейм данных. Мы будем использовать этот фрейм данных для дальнейшего анализа в этой задаче, если только не указано явно использовать фрейм данных movies

8. Поскольку количество голосов не может быть дробным, приведение всех столбцов, связанных с CVotes, к целым числам. Кроме того, округлите все столбцы, связанные с голосами, до двух цифр после десятичной точки.

Если мы посмотрим на окончательный фрейм данных, который вы получили, вы увидите, что теперь у вас есть полная информация обо всех демографических (связанных с голосами и CVotes) столбцах по 10 наиболее популярным жанрам. Мы можем использовать этот набор данных, чтобы получить интересную информацию об избирателях!

«График» времени !!!

  • Жанр имеет значение

Теперь мы создадим гистограмму, отображающую различные жанры и cnt, используя seaborn, и извлечем некоторые идеи из этого фрейма данных.

Хорошо!! В наборе данных 100 лучших фильмов больше всего используется жанр драма. На данный момент мы ничего не можем сказать о популярности жанров, просто взглянув на эту таблицу. Эта диаграмма дает только цифры и ничего больше.

Давайте углубимся в подробности !!

Если вы внимательно посмотрели на столбцы Votes- и CVotes, вы могли заметить суффиксы F и M, обозначающие женский и мужской. Поскольку у нас есть подсчет голосов как для мужчин, так и для женщин в разных возрастных группах, давайте теперь посмотрим, как популярность жанров различается между двумя полами во фрейме данных.

  • Пол и жанр

Примечание. Используйте genre_top10 фрейм данных для этого анализа

  1. Мы сделаем первую тепловую карту, чтобы увидеть, как среднее количество голосов мужчин варьируется в зависимости от жанра. Для этого анализа используйте тепловую карту морского дна. Ось X должна содержать четыре возрастные группы для мужчин, то есть _76 _, _ 77_, CVotes3044M и CVotes45AM. На оси Y будут жанры, а аннотация на тепловой карте покажет среднее количество голосов для этой возрастной мужской группы.
  2. Составьте вторую тепловую карту, чтобы увидеть, как среднее количество голосов женщин варьируется в зависимости от жанра. Для этого анализа используйте тепловую карту морского дна. Ось X должна содержать четыре возрастные группы для женщин, то есть _80 _, _ 81_, CVotes3044F и CVotes45AF. На оси Y будут жанры, а аннотация на тепловой карте покажет среднее количество голосов для этой возрастной группы женщин.

Отлично! Давайте теперь извлечем некоторые идеи и наблюдения из приведенной выше диаграммы

Выводы. Из приведенной выше тепловой карты можно сделать несколько выводов о том, что мужчины проголосовали больше, чем женщины, а научная фантастика, по-видимому, наиболее популярна среди возрастной группы 18–29 лет независимо от их пола. Что еще мы можем сделать из двух построенных тепловых карт?

  • Вывод 1: люди в возрасте от 18 до 44 лет проголосовали больше всех, независимо от пола.
  • Вывод 2: даже если научная фантастика имеет меньшее количество голосов по сравнению с другими жанрами (предыдущая гистограмма), она все же имеет наибольшее количество голосов.
  • Вывод 3: U18M проголосовало больше, чем U18F. В целом, фильмы в возрасте до 18 и 45 лет смотрят реже, независимо от возраста, или они смотрели, но не голосовали.
  • Вывод 4: женщины в среднем (в возрасте от 18 до 44) голосовали за фильмы боевики, приключения, мультфильмы, комедии, мелодрамы и триллеры больше (после научной фантастики) по сравнению с мужчинами.
  • Вывод 5: Мужчины меньше всего голосуют за романтические отношения, независимо от их возраста, по сравнению с другими жанрами (принимая только пол мужчины), количество голосов может быть выше, чем у женщин, но если рассматривать только мужской пол, они меньше всего голосуют за романтику.

3. Составьте вторую тепловую карту, чтобы увидеть, как среднее количество голосов женщин варьируется в зависимости от жанра. Для этого анализа используйте тепловую карту морского дна. Ось X должна содержать четыре возрастные группы для женщин, то есть _84 _, _ 85_, Votes3044F и Votes45AF. На оси Y будут жанры, а аннотация на тепловой карте покажет среднее количество голосов для этой возрастной группы женщин.

Выводы. Научная фантастика является жанром с наивысшим рейтингом в возрастной группе до 18 лет как для мужчин, так и для женщин. Кроме того, женщины в этой возрастной группе оценили его немного выше, чем мужчины в той же возрастной группе. Некоторые из других выводов могут быть -

  • Вывод 1: интересно видеть, что, хотя среднее количество голосов за романтические отношения меньше у мужчин, средний рейтинг более или менее такой же, как у женщин, это означает, что фильмы в жанрах романтики, как правило, смотрят меньше или реже голосуют мужчины, но не все. фильмы хороши тем, что получают хорошие оценки независимо от пола, особенно для U18
  • Вывод 2: Независимо от пола, возраст от 30 до 45 лет имеет средний рейтинг по разным жанрам от 7,7 до 7,8, большинство из них не пересекаются с 8. Можно сделать небольшое наблюдение (нет причинно-следственной связи), что в зависимости от вашего возраста увеличивается, вы склонны становиться критиком
  • Вывод 3: мы видим, что за жанры анимации постоянно голосуют по женскому полу, тогда как по мужскому полу наблюдается значительная разница (уменьшение) с возрастом. Интересно отметить, что женщины всех возрастов любят анимационные фильмы.

Вам может понадобиться ссылка для форматирования вашей тепловой карты.

Можно еще что-нибудь? Как аналитик, вы всегда должны быть неудовлетворенными и любопытными :-P. Всегда старайтесь проехать следующую милю !!

Вы видите, что набор данных содержит как американские, так и неамериканские фильмы? Давайте проанализируем, как американские и неамериканские избиратели отреагировали на американские и неамериканские фильмы.

  • Перекрестный анализ США и других стран

Примечание. Для этой подзадачи используйте movies фрейм данных. Используйте эту документацию для форматирования блочной диаграммы - блочной диаграммы

  1. Здесь мы создадим столбец IFUS в фрейме данных movies. Столбец IFUS должен содержать значение «США», если Country фильма - «США». Для всех других стран, кроме США, IFUS должен содержать значение non-USA.
  2. Теперь создайте коробчатую диаграмму, которая показывает, как количество голосов жителей США, т.е. CVotesUS, меняется для фильмов из США и других стран. Используйте столбец IFUS, чтобы построить этот график. Точно так же создайте еще один подзаголовок, который показывает, как избиратели, не являющиеся гражданами США, проголосовали за американские и неамериканские фильмы, построив CVotesnUS как для американских, так и для других фильмов.

Выводы:

  • Вывод 1: мы можем наблюдать, что количество голосов в среднем больше у людей, не являющихся гражданами США, по сравнению с людьми из США, независимо от происхождения фильмов из США или других стран.
  • Вывод 2: мы можем наблюдать фильмы за пределами США, количество голосов распределено равномерно по сравнению с фильмами из США.
  • Вывод 3: Мы видим, что существует значительная разница в количестве голосов жителей США за фильмы из США и других стран. Люди в США меньше проголосовали за фильмы за пределами США
  • Вывод 4: На обоих графиках мы видим некоторые выбросы для фильмов США.
  • Вывод 5: фильмы в США в целом получили большее количество голосов как в США, так и в других странах по сравнению с фильмами из других стран.

3. Мы снова проведем аналогичный анализ, но с рейтингами. Создайте диаграмму, показывающую, как рейтинги людей из США, т.е. VotesUS, различаются для фильмов из США и других стран. Точно так же создайте еще один подзаголовок, который показывает, как VotesnUS меняется для американских и неамериканских фильмов.

Выводы:

  • Вывод 1: в среднем мы видим, что средний рейтинг выше (от 7,9 до 8) у людей из США по сравнению с людьми из других стран.
  • Вывод 2: интересно видеть, что люди как из США, так и за пределами США оценили фильмы за пределами США значительно ниже, чем у фильмов из США (разница для людей, не являющихся гражданами США, больше, чем у людей из США).
  • Вывод 3: Рейтинг фильмов из других стран, не относящихся к США, людьми из США распределен равномерно по сравнению с другими.

Комбинированный вывод: из обеих пар коробчатых диаграмм можно сделать важное наблюдение: даже несмотря на то, что среднее число голосов от людей, не являющихся гражданами США, намного выше, чем от жителей США, их средний рейтинг меньше что по сравнению с американцами одной из многих возможных причин может быть

  • Население - Предполагая, что за пределами США подразумеваются избиратели из азиатских стран, европейских стран и т. Д., Которые составляют большую часть, поэтому, поскольку население больше, у нас может быть больше критиков.
  • Топ-1000 избирателей по сравнению с жанрами (последний анализ !!): P

Вы также могли заметить столбец CVotes1000. Этот столбец представляет 1000 лучших избирателей на IMDb и дает подсчет количества этих избирателей, проголосовавших за конкретный фильм. Давайте посмотрим, как проголосовали эти 1000 лучших избирателей по жанрам.

  1. Отсортируйте фрейм данных genre_top10 по значению CVotes1000 в порядке убывания.
  2. Сделайте план морского дна для genre vs CVotes1000

Выводы:

  • Жанр мелодрамы получил наименьшее количество голосов из 1000 лучших избирателей.
  • Научная фантастика - самая популярная среди 1000 лучших избирателей.
  • Нет существенной разницы в популярности между боевиками, триллерами и приключениями, что также имеет смысл, поскольку эти три в целом идут рука об руку.
  • Если мы сравним эту гистограмму с предыдущей, то увидим, что 1000 лучших избирателей IMDb предпочитают научную фантастику, а не драму, а также набор данных содержит фильмы из драмы больше по сравнению с другими жанрами.
  • Мы можем видеть это, даже если у Sci-Fi очень мало фильмов в наборе данных (как показано на предыдущей гистограмме). В целом, они получили наибольшее количество голосов от мужчин, женщин, а также от 1000 лучших избирателей Imdb, а также у них самый высокий рейтинг среди мужчин и женщин в своей возрастной группе.

На этом наш анализ закончен. Я знаю, что это много, поэтому снова я буду подчеркивать, не проходите через все это сразу, останавливайтесь, когда чувствуете себя истощенным, возвращайтесь снова через некоторое время. Опять же, цель этого анализа - заставить вас думать как аналитик, а не просто выполнять сквозной проект. Используйте свое свободное время, исследуйте набор данных самостоятельно и посмотрите, какие еще идеи вы можете получить в других столбцах.

Я хотел бы получить ваши отзывы об этом, так как это также поддержит меня. Сообщите мне, что я могу изменить, чтобы сделать его более интересным и понятным. Вы также можете предложить мне осветить конкретные темы, я буду работать над этим в своих будущих статьях о среде.

Вы можете связаться со мной через мою учетную запись LinkedIn.

Удачного анализа!