Понимание веб-скрейпинга, часть 2: важность веб-скрейпинга — поясняется на примере.

Веб-скраппинг — это процесс сбора и анализа необработанных данных из Интернета, и сообщество Python разработало несколько довольно мощных инструментов веб-скрейпинга.

Интернет является, пожалуй, самым большим источником информации — и дезинформации — на планете. Многие дисциплины, такие как наука о данных, бизнес-аналитика и журналистские расследования, могут извлечь огромную пользу из сбора и анализа данных с веб-сайтов.

Большинство издателей позволяют программистам в той или иной степени сканировать свои веб-сайты. С другой стороны, издатели хотят, чтобы определенные части веб-сайтов сканировались. Чтобы определить это, веб-сайты должны установить некоторые правила, определяющие, какие части можно сканировать, а какие нет. Такие правила определены в файле robots.txt.

Файл robots.txt представляет собой удобочитаемый файл, используемый для определения частей веб-сайта, которые сканерам разрешено и запрещено очищать. Не существует стандартного формата файла «robots.txt», и издатели веб-сайтов могут вносить изменения в соответствии со своими потребностями. Мы можем проверить файл «robots.txt» для определенного веб-сайта, указав косую черту и «robots.txt» после URL-адреса этого веб-сайта.

Вот некоторые из наиболее распространенных правил, определенных в файле robots.txt' веб-сайта:

User-agent: BadCrawler

Disallow: /

Приведенное выше правило означает, что файл «robots.txt» просит сканер с пользовательским агентом BadCrawler не сканировать их веб-сайт.

User-agent: *

Crawl-delay: 5

Disallow: /trap

Приведенное выше правило означает, что файл «robots.txt» задерживает поисковый робот на 5 секунд между запросами на загрузку для всех пользовательских агентов, чтобы избежать перегрузки сервера. Ссылка /trap будет пытаться заблокировать вредоносные поисковые роботы, которые переходят по запрещенным ссылкам.

Пример 2. В этом примере мы попытаемся абстрагировать данные таблицы с веб-сайта и сохранить их в виде файла Excel на компьютере. Мы будем следовать тем же шагам, что и в предыдущем примере, который находится в блоге — Understanding Web Scraping-1”.

Код:

Теперь мы посмотрим на результат, сохраненный в файле Excel:

И вот оно. Спасибо за чтение.

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.