На самом деле мое намерение состоит в том, чтобы добиться следующего от "href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')"
, поэтому просто для примера я беру [этот URL] [1]. Из этого URL-адреса вы можете увидеть «Далее» в конце страницы, поэтому, если вы заметите в html, что они написаны через href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')
, который имеет теги href
как #
, я просто пытаюсь собрать эти теги href, даже если они #
.
def parse(self,response):
selector = Selector(response)
links = []
for link in selector.css('span.PSEDITBOX_DISPONLY').re('.*>(\d+)<.*'):
#intjid = selector.css('span.PSEDITBOX_DISPONLY').re('.*>(\d+)<.*')
abc = 'xxxx'
#print abc
yield Request(abc,callback=self.parse_listing_page,dont_filter=True)
#meta={"use_splash": False}
# )
nav_page = selector.css('div#win0divHRS_APPL_WRK_HRS_LST_NEXT a').extract()
print nav_page
for nav_page in nav_page:
## To pass the url to parse function
yield Request(urljoin('xxx',nav_page),self.parse,dont_filter=True)
Когда я запускаю приведенный выше код, я получаю результат как " HTTP status code is not handled or not allowed"
, я имею в виду ни одного, может ли кто-нибудь сказать мне, как достичь Next с помощью этих функций ""href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')""
и почему результат пуст. Я наблюдаю какую-то странность в html, например, одна из страниц в Next имеет тег привязки как "<a id="HRS_APPL_WRK_HRS_LST_NEXT" class="PSHYPERLINK" href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT');" tabindex="74" ptlinktgt="pt_replace" name="HRS_APPL_WRK_HRS_LST_NEXT"></a>"
заранее спасибо
выход :
[u'<a name="HRS_APPL_WRK_HRS_LST_NEXT" id="HRS_APPL_WRK_HRS_LST_NEXT" ptlinktgt="pt_replace" tabindex="74" href="javascript:submitAction_win0(document.win0,\'HRS_APPL_WRK_HRS_LST_NEXT\');" class="PSHYPERLINK">Next</a>']
.py
? Ошибка означает, чтоhandle_httpstatus_list
не настроен для обработки HTTP-статуса страницы, которую вы вызываете по запросу. - person Nima Soroush   schedule 20.11.2014