Веб-скрапинг от Beautiful Soup из трех разных видео на Youtube и анализ этих видео.

В этом проекте я извлек необходимые данные (название, лайки, антипатии, комментарии) видео с youtube.com и правильно упорядочил их, чтобы проанализировать эти видео и получить некоторое представление о данных. Вы можете получить доступ к скриптам Python, относящимся к этому проекту, по данной ссылке Репозиторий GitHub.

Очистка веб-страниц (или очистка экрана, извлечение веб-данных или сбор веб-данных) — это в основном процесс извлечения данных с веб-сайта с использованием некоторых сценариев или автоматических инструментов/программного обеспечения. Веб-скрапинг, также известный как извлечение веб-данных, представляет собой процесс извлечения или скрапинга данных с веб-сайта.

Используемый инструмент:

  1. BeautifulSoup: BeautifulSoup — это библиотека Python для извлечения данных из файлов HTML и XML. Он работает с вашим любимым синтаксическим анализатором, предоставляя идиоматические способы навигации, поиска и изменения дерева синтаксического анализа.

BeautifulSoup анализирует все, что вы ему даете, и выполняет обход дерева за вас. Вы можете сказать ему «Найти все ссылки», или «Найти все ссылки класса external Link», или «Найти все ссылки, URL-адреса которых соответствуют «foo.com», или «Найти заголовок таблицы, выделенный жирным шрифтом, затем дай мне этот текст».

2. TextBlob: TextBlob — это библиотека Python (2 и 3) для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP), такие как маркировка частей речи, извлечение именной фразы, анализ тональности, классификация, перевод и многое другое.

Основные шаги для извлечения данных:

  1. Введите HTML-страницу.
  2. Преобразуйте его в свой любимый синтаксический анализатор, чтобы обеспечить идиоматические способы навигации, поиска и изменения дерева синтаксического анализа.
  3. Определите необходимые данные.
  4. Найдите данные.
  5. Храните данные в определенном формате.

Часть 1: парсинг веб-страниц

Шаг 1. Включите необходимые библиотеки

Шаг 2. Определите ссылки HTML-страницы

Я уже загрузил HTML-страницы, а в других случаях, если мы хотим, чтобы HTML-страницы были в сети, мы определяем URL-адреса.

Шаг 3: Я создал функцию для каждой задачи.

Шаг 3.1. convertToNumber()

Эта функция преобразует текстовые данные в числовой формат.

Пример: «151 641 939 просмотров» вместо «151641939».

Шаг 3.2: generateData()

Эта функция будет собирать данные с HTML-страницы с помощью BeautifulSoup и хранить их в серии videoData.

Шаг 3.3. generateDataframe()

Вышеупомянутая функция создаст фрейм данных извлеченных данных в строки и столбцы.

Шаг 3.4: generatepolarity()

Вышеупомянутая функция будет генерировать полярность каждого комментария, то есть комментарий будет хорошим, плохим или нейтральным.

Шаг 3.5. Наконец, вызываются все функции и генерируются окончательные выходные данные/данные.

Окончательный вывод:

Часть 2: Визуализация/анализ данных

Примечание. Код каждого графика находится в файле mainFile.ipynb.

1) Анализ просмотров:

Из приведенного выше графика мы можем сказать, что «Rewind 2016» набрал максимальное количество просмотров из трех видео.

2) Анализ полярности:

Из приведенных выше графиков

  • Rewind 2015 имеет максимальное количество положительных комментариев, а два других видео имеют почти столько же положительных комментариев.
  • Rewind 2016 имеет максимально нейтральные комментарии.
  • Rewind 2019 имеет максимальное количество негативных комментариев. Это видео вызвало больше негатива.

В этом проекте я взял выборку из 200 комментариев, так что обобщение на популяцию, которая

«Rewind 2015» получает больше положительных отзывов, а «Rewind 2019» — больше негативных.

3) Анализ Нравится/Не нравится:

Из вышеприведенных цифр можно сказать, что

  • «Перемотка назад 2016» имеет максимальное количество лайков или пользователей, которые наслаждаются этим видео, и в целом все три видео имеют почти одинаковое количество лайков.
  • «Перемотка назад 2019» получила большое количество дизлайков, что означает, что это видео получает негатив или содержание видео не нравится пользователям.

Вывод:

  1. Rewind 2015 и Rewind 2016 лучше по сравнению с дизлайками.
  2. Rewind 2016 работает хорошо, так как у него хорошие лайки и положительные комментарии.
  3. Rewind 2019 показал себя плохо, потому что получил большое количество дизлайков и негативных комментариев.