Включает фрагменты кода, которые помогут вам сразу начать
Веб-парсинг извлекает данные с веб-сайтов. В этой статье я покажу вам, как очищать ссылки с тестового сайта электронной коммерции с помощью Python 3.
Предпосылки
Если вы еще этого не сделали, установите beautifulsoup4 и запросы.
pip install beautifulsoup4 pip install requests
Начать соскабливание!
Импортировать внешние библиотеки
import requests from bs4 import BeautifulSoup
Получать контент веб-сайта с запросами
result = requests.get("https://www.webscraper.io/test-sites/e-commerce/allinone") #songtham
Анализируйте контент веб-сайта с помощью Beautiful Soup
soup = BeautifulSoup(result.content)
Найти ссылки
links = soup.find_all("a", "title")
Создайте словарь и добавьте на него ссылки
data = {} for link in links: title = link['title'] data[title] = link.attrs['href'] #songtham
Проверить коллекцию в data
.
››› данные
{'MSI GL62VR 7RFX': '/ test-sites / e-commerce / allinone / product / 326',
'Dell Vostro 15…': '/ test-sites / e -commerce / allinone / product / 283 ',
' Dell Inspiron 17… ':' / test-sites / e-commerce / allinone / product / 296 '} #tung
Вот и все!
Суть
Вот полный фрагмент, который вы можете скопировать и вставить прямо в свой терминал, любимый текстовый редактор или блокнот jupyter.
Закрытие
Веб-скрапинг - это замечательно и может сэкономить вам много времени, когда вы хотите быстро извлечь данные с веб-сайтов. Приведенные выше примеры используются для быстрого начала работы. Конечно, это еще не все, что я показал выше, например (сканирование, разбивка на страницы, просмотр DOM, аутентификация, файлы cookie и т. д.). Это только верхушка айсберга 😉.
Спасибо за чтение - и, пожалуйста, подпишитесь на меня здесь, на Medium, чтобы увидеть больше интересных статей по разработке программного обеспечения!