Я пытаюсь отобразить и очистить интерактивный веб-сайт, вызывая Splash через скрипт Python, в основном следуя этому руководство:
import scrapy
from scrapy_splash import SplashRequest
class MySpider(scrapy.Spider):
start_urls = ["http://example.com"]
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, self.parse,
endpoint='render.html',
args={'wait': 0.5},
)
def parse(self, response):
filename = 'mywebsite-%s.html' % '1'
with open(filename, 'wb') as f:
f.write(response.body)
Вывод выглядит нормально, однако в нем отсутствует часть веб-сайта, которая загружается через ajax через секунду или две, а это контент, который мне действительно нужен. Теперь странно то, что если я получаю доступ к Splash непосредственно внутри контейнера через веб-интерфейс, устанавливаю тот же URL-адрес и нажимаю кнопку Render, возвращаемый ответ правильный. Итак, единственный вопрос в том, почему, когда скрипт Python вызывает его, он не отображает веб-сайт правильно?