«Секрет в парсинге веб-страниц»

Часть 1 этой статьи обсуждало несколько причин, по которым Python — это верный способ заработать деньги; Пожалуйста, прочитайте это сначала. Итак, во второй части мы рассмотрим, как зарабатывать деньги с помощью Python в кратчайшие сроки. Можем ли мы начать работать на Python через 2 месяца? Какой работе мы должны отдать предпочтение в первую очередь? Ответ уже содержится в названии этой статьи: веб-скрапинг.

Некоторые из нас могут ассоциировать веб-скрапинг с чем-то негативным, потому что он часто ассоциируется с хакерами, мошенниками и другими нежелательными лицами. Мы забываем, что Google, Yahoo и другие веб-сайты поисковых систем начинали с парсинга веб-страниц, а затем расширились до других направлений бизнеса. Так что это нейтрально; это зависит от пользователя и того, для чего он будет его использовать.

Итак, в этой части 2 мы узнаем, как сделать простой веб-скрапинг на Python менее чем за 20 строк. Мы будем использовать сайт Indeed.com в качестве примера нашего целевого сайта; мы извлечем название должности, название компании и местонахождение компании с первой страницы веб-сайта с помощью Python.

Установка Python и Pycharm (IDE)

Во-первых, нам нужно установить сам Python и IDE или редактор, который мы будем использовать; в этом случае мы будем использовать Pycharm в качестве редактора. Во-первых, нам нужно загрузить установочный файл Python из здесь, пожалуйста, следуйте инструкциям по установке, как обычно. После этого установите Pycharm (IDE) из здесь, вы можете выбрать версию для Windows, Mac или Linux в зависимости от вашей операционной системы. Следуйте инструкциям по установке до завершения.

Если у вас возникли трудности с установкой Pycharm, вы можете посмотреть одно из видео на YouTube, например это.

Установка пакета

Мы кратко обсуждали пакет в Python в части 1; для простого объяснения, пакет — это программа, созданная другими людьми, которую другие люди могут повторно использовать с определенными функциями. Например, запросы — это пакет для получения веб-сайта, который мы будем использовать позже. Этот пакет был создан специально для помощи другим пользователям в поиске веб-сайта без написания длинного кода. У Python есть миллионы таких пакетов, доступных для бесплатной загрузки на https://pypi.org/. Requests и BeautifulSoup будут единственными пакетами, которые мы будем использовать. BeautifulSoup — это пакет, который поможет нам получить данные из HTML-файлов, загруженных пакетом из Интернета, в нашем случае с веб-сайта Indeed.com.

Мы можем установить оба пакета одновременно в наш Pycharm, используя эту строку команды на вкладке «Терминал» в нижней части Pycharm.

pip install beautifulsoup4 requests

Затем мы создаем новый файл в папке нашего проекта в Pycharm, возможно, мы даем ему имя «indeed_scraping.py». Если вы не понимаете, как это сделать, вы можете найти это на YouTube, там есть множество руководств по этому поводу.

Начать кодирование

В первых двух строках нашего кода мы импортируем пакеты, чтобы их можно было использовать в нашей программе.

Вот и все, затем мы начинаем извлекать первую HTML-страницу с веб-сайта Indeed.com, в частности, например, мы ищем вакансии «Разработчик Python» в «штате Нью-Йорк», поэтому код выглядит следующим образом.

Мы указываем работу и местоположение, которое мы хотим найти, в переменной «params». Рассмотрим переменную, например страницу заметок, которую мы используем для написания простых заметок, таких как имя и номер телефона. Затем мы используем переменные params для получения HTML с помощью пакета запросов.

Первая страница веб-сайта Indeed.com, содержащая вакансии «Разработчик Python» в штате Нью-Йорк, была получена. Следующим шагом мы извлекаем данные из этого HTML-файла с помощью пакета BeautifulSoup.

После того, как данные были извлечены в переменный суп, мы проанализируем данные, которые нам нужны, с помощью функции поиска BeautifulSoup. Например, нам нужны название должности, название компании и данные о местонахождении компании.

Затем выберите «Выполнить» в меню Pycharm и вуаля! все вакансии с названием и местоположением компании будут опубликованы на вкладке Pycharm Run ниже. Полный код такой:

Для получения данных с первой страницы сайта Indeed.com требуется всего 16 строк кода. Конечно, требуются дополнительные строки кода, чтобы учесть запрос работодателя в реальных приложениях, но основной код остается неизменным. Формат кода прост для понимания, верно? Неужели невозможно за два месяца научиться такому простому программированию? Из-за этого Python является самым популярным инструментом веб-скрейпинга. Надеюсь, эти две части статьи прольют свет на любого из нас, ищущего новую работу или дополнительный источник дохода.