Веб-скрапинг от Beautiful Soup из трех разных видео на Youtube и анализ этих видео.
В этом проекте я извлек необходимые данные (название, лайки, антипатии, комментарии) видео с youtube.com и правильно упорядочил их, чтобы проанализировать эти видео и получить некоторое представление о данных. Вы можете получить доступ к скриптам Python, относящимся к этому проекту, по данной ссылке Репозиторий GitHub.
Очистка веб-страниц (или очистка экрана, извлечение веб-данных или сбор веб-данных) — это в основном процесс извлечения данных с веб-сайта с использованием некоторых сценариев или автоматических инструментов/программного обеспечения. Веб-скрапинг, также известный как извлечение веб-данных, представляет собой процесс извлечения или скрапинга данных с веб-сайта.
Используемый инструмент:
- BeautifulSoup: BeautifulSoup — это библиотека Python для извлечения данных из файлов HTML и XML. Он работает с вашим любимым синтаксическим анализатором, предоставляя идиоматические способы навигации, поиска и изменения дерева синтаксического анализа.
BeautifulSoup анализирует все, что вы ему даете, и выполняет обход дерева за вас. Вы можете сказать ему «Найти все ссылки», или «Найти все ссылки класса external Link», или «Найти все ссылки, URL-адреса которых соответствуют «foo.com», или «Найти заголовок таблицы, выделенный жирным шрифтом, затем дай мне этот текст».
2. TextBlob: TextBlob — это библиотека Python (2 и 3) для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP), такие как маркировка частей речи, извлечение именной фразы, анализ тональности, классификация, перевод и многое другое.
Основные шаги для извлечения данных:
- Введите HTML-страницу.
- Преобразуйте его в свой любимый синтаксический анализатор, чтобы обеспечить идиоматические способы навигации, поиска и изменения дерева синтаксического анализа.
- Определите необходимые данные.
- Найдите данные.
- Храните данные в определенном формате.
Часть 1: парсинг веб-страниц
Шаг 1. Включите необходимые библиотеки
Шаг 2. Определите ссылки HTML-страницы
Я уже загрузил HTML-страницы, а в других случаях, если мы хотим, чтобы HTML-страницы были в сети, мы определяем URL-адреса.
Шаг 3: Я создал функцию для каждой задачи.
Шаг 3.1. convertToNumber()
Эта функция преобразует текстовые данные в числовой формат.
Пример: «151 641 939 просмотров» вместо «151641939».
Шаг 3.2: generateData()
Эта функция будет собирать данные с HTML-страницы с помощью BeautifulSoup и хранить их в серии videoData.
Шаг 3.3. generateDataframe()
Вышеупомянутая функция создаст фрейм данных извлеченных данных в строки и столбцы.
Шаг 3.4: generatepolarity()
Вышеупомянутая функция будет генерировать полярность каждого комментария, то есть комментарий будет хорошим, плохим или нейтральным.
Шаг 3.5. Наконец, вызываются все функции и генерируются окончательные выходные данные/данные.
Окончательный вывод:
Часть 2: Визуализация/анализ данных
Примечание. Код каждого графика находится в файле mainFile.ipynb.
1) Анализ просмотров:
Из приведенного выше графика мы можем сказать, что «Rewind 2016» набрал максимальное количество просмотров из трех видео.
2) Анализ полярности:
Из приведенных выше графиков
- Rewind 2015 имеет максимальное количество положительных комментариев, а два других видео имеют почти столько же положительных комментариев.
- Rewind 2016 имеет максимально нейтральные комментарии.
- Rewind 2019 имеет максимальное количество негативных комментариев. Это видео вызвало больше негатива.
В этом проекте я взял выборку из 200 комментариев, так что обобщение на популяцию, которая
«Rewind 2015» получает больше положительных отзывов, а «Rewind 2019» — больше негативных.
3) Анализ Нравится/Не нравится:
Из вышеприведенных цифр можно сказать, что
- «Перемотка назад 2016» имеет максимальное количество лайков или пользователей, которые наслаждаются этим видео, и в целом все три видео имеют почти одинаковое количество лайков.
- «Перемотка назад 2019» получила большое количество дизлайков, что означает, что это видео получает негатив или содержание видео не нравится пользователям.
Вывод:
- Rewind 2015 и Rewind 2016 лучше по сравнению с дизлайками.
- Rewind 2016 работает хорошо, так как у него хорошие лайки и положительные комментарии.
- Rewind 2019 показал себя плохо, потому что получил большое количество дизлайков и негативных комментариев.