Splash не отображает веб-страницу полностью

Я пытаюсь использовать scrapy + splash для очистки этого сайта https://www.teammitsubishihartford.com/new-inventory/index.htm?compositeType=new. Но я не могу извлечь какие-либо данные с сайта. Когда я пытаюсь отобразить веб-страницу с помощью API-интерфейса заставки (браузер), я узнал, что сайт загружен не полностью (рендеринг заставки возвращает частично загруженное изображение веб-сайта). Как я могу отрендерить сайт полностью??


person Vinu Abraham    schedule 10.06.2021    source источник


Ответы (1)


@Vinu Abraham, если ваше требование не относится к scrapy + splash, вы можете использовать селен. Эта проблема возникает, когда мы пытаемся очистить динамический сайт. Ниже приведен фрагмент кода для справки.

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import re
from csv import writer

# url of the page we want to scrape
url = 'https://www.*******/drugs-all-medicines'

driver = webdriver.Chrome('./chromedriver')
driver.get(url)
time.sleep(5)

html = driver.page_source
soup = BeautifulSoup(html, "html.parser")
all_divs = soup.find('div', {'class': 'style__container___1i8GI'})

Также дайте мне знать, если вы получите какое-либо решение для того же, используя scrapy.

person CIVI MUNKA    schedule 13.06.2021
comment
Мне удалось очистить сайт с помощью селена. Моим основным намерением было очистить сайт с помощью заставки + скрапинга. Кроме того, заставка не используется для удаления рендеринга и удаления динамических страниц. - person Vinu Abraham; 15.06.2021