Включает фрагменты кода, которые помогут вам сразу начать

Веб-парсинг извлекает данные с веб-сайтов. В этой статье я покажу вам, как очищать ссылки с тестового сайта электронной коммерции с помощью Python 3.

Предпосылки

Если вы еще этого не сделали, установите beautifulsoup4 и запросы.

pip install beautifulsoup4
pip install requests

Начать соскабливание!

Импортировать внешние библиотеки

import requests
from bs4 import BeautifulSoup

Получать контент веб-сайта с запросами

result = requests.get("https://www.webscraper.io/test-sites/e-commerce/allinone") #songtham

Анализируйте контент веб-сайта с помощью Beautiful Soup

soup = BeautifulSoup(result.content)

Найти ссылки

links = soup.find_all("a", "title")

Создайте словарь и добавьте на него ссылки

data = {}
for link in links:
    title = link['title']
    data[title] = link.attrs['href'] #songtham

Проверить коллекцию в data.

››› данные
{'MSI GL62VR 7RFX': '/ test-sites / e-commerce / allinone / product / 326',
'Dell Vostro 15…': '/ test-sites / e -commerce / allinone / product / 283 ',
' Dell Inspiron 17… ':' / test-sites / e-commerce / allinone / product / 296 '} #tung

Вот и все!

Суть

Вот полный фрагмент, который вы можете скопировать и вставить прямо в свой терминал, любимый текстовый редактор или блокнот jupyter.

Закрытие

Веб-скрапинг - это замечательно и может сэкономить вам много времени, когда вы хотите быстро извлечь данные с веб-сайтов. Приведенные выше примеры используются для быстрого начала работы. Конечно, это еще не все, что я показал выше, например (сканирование, разбивка на страницы, просмотр DOM, аутентификация, файлы cookie и т. д.). Это только верхушка айсберга 😉.

Спасибо за чтение - и, пожалуйста, подпишитесь на меня здесь, на Medium, чтобы увидеть больше интересных статей по разработке программного обеспечения!