Я пытаюсь разобрать список названий видеоигр с торгового сайта. однако, поскольку список элементов хранится внутри тега.
Это раздел документации предположительно объясняет, как анализировать только часть документа, но я не могу это понять. мой код:
from BeautifulSoup import BeautifulSoup
import urllib
import re
url = "Some Shopping Site"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for a in soup.findAll('a',{'title':re.compile('.+') }):
print a.string
в настоящее время печатает строку внутри любого тега, который имеет непустую ссылку на заголовок. но он также печатает предметы на боковой панели, которые являются специальными предложениями. если я смогу взять только раздел списка продуктов, я убью двух зайцев одним выстрелом.
Большое спасибо.