Я столкнулся с некоторым странным поведением (насколько мне известно) обратного вызова SplashRequest, когда он выполняется scrapyd.
Исходный код Scrapy
from scrapy.spiders.Spider import Spider
from scrapy import Request
import scrapy
from scrapy_splash import SplashRequest
class SiteSaveSpider(Spider):
def __init__(self, domain='', *args, **kwargs):
super(SiteSaveSpider, self).__init__(*args, **kwargs)
self.start_urls = [domain]
self.allowed_domains = [domain]
name = "sitesavespider"
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, callback=self.parse, args={'wait':0.5})
print "TEST after yield"
def parse(self, response):
print "TEST in parse"
with open('/some_path/test.html', 'w') as f:
for line in response.body:
f.write(line)
Журнал для внутреннего Scrapy Crawler
Функция анализа обратного вызова выполняется при запуске
scrapy crawl sitesavespider -a domain="https://www.facebook.com"
...
2017-01-29 14:12:37 [scrapy.core.engine] INFO: Spider opened
2017-01-29 14:12:37 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
TEST after yield
2017-01-29 14:12:55 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.facebook.com via http://127.0.0.1:8050/render.html> (referer: None)
TEST in parse
2017-01-29 14:12:55 [scrapy.core.engine] INFO: Closing spider (finished)
...
Журнал для scrapyd
При запуске того же паука с использованием scrapyd он вернется сразу после SplashRequest:
>>>scrapyd.schedule("feedbot","sitesavespider",domain="https://www.facebook.com")
u'f2f4e090e62d11e69da1342387f8a0c9'
cat f2f4e090e62d11e69da1342387f8a0c9.log
...
2017-01-29 14:19:34 [scrapy.core.engine] INFO: Spider opened
2017-01-29 14:19:34 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-01-29 14:19:58 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.facebook.com via http://127.0.0.1:8050/render.html> (referer: None)
2017-01-29 14:19:58 [scrapy.core.engine] INFO: Closing spider (finished)
...
Кто-нибудь знает об этой проблеме или может помочь мне найти мои ошибки?
http://127.0.0.1:8050
. Можете ли вы подтвердить, что Splash доступен в этом месте для scrapyd? Скрапид работает на той же машине? - person Mikhail Korobov   schedule 30.01.2017127.0.0.0:6800
. Поскольку он возвращает200
в виде http-кода, я предполагаю успешное соединение с заставкой?! - person David Lassig   schedule 30.01.2017