Вопросы по теме 'scrapy-splash'

Установка заставки scrapinghub в windows cmd
Я новичок в использовании scrapy/splash. Следуя инструкциям здесь , я успешно установил scrapy-splash. Второе требование — сам всплеск. У меня нет докера, а в документации по заставке нет инструкций по установке заставки для окон без докера....
2597 просмотров
schedule 22.11.2023

Scrapy + Splash: в соединении отказано
Я учусь работать с scrapy + splash. Я создал проект с виртуальной средой и сейчас делаю это руководство: https://github.com/scrapy-plugins/scrapy-splash . Я запускал всплеск с: $ docker run -p 8050:8050 scrapinghub/splash что привело к:...
5369 просмотров

scrapy_splash.SplashRequest не выполняет функцию обратного вызова, когда запланировано scrapyd
Я столкнулся с некоторым странным поведением (насколько мне известно) обратного вызова SplashRequest, когда он выполняется scrapyd. Исходный код Scrapy from scrapy.spiders.Spider import Spider from scrapy import Request import scrapy from...
852 просмотров
schedule 07.09.2022

Scrapy Splash на сервере Ubuntu: неожиданный аргумент ключевого слова 'кодировка'
Scrapy Splash, который я использую, отлично работает на моем локальном компьютере, но он возвращает эту ошибку, когда я использую его на своем сервере Ubuntu. Это почему? Это вызвано нехваткой памяти? File...
503 просмотров

Использование оболочки scrapy с возвратом пустого значения заставки
Я просматриваю этот сайт: http://www.germandeli.com/Meats/Sausages . который содержит некоторый динамический контент. Я использую скрап-оболочку с заставкой для рендеринга javascript, но она возвращает пустое значение []. Моя система Ubuntu...
358 просмотров
schedule 25.03.2024

Настройки Scrapy Splash: SPLASH_URL
У меня есть рабочий экземпляр scrapy splash spider на моем ПК. Затем я перенес его на свой Linux-сервер. Паук отлично работает и получает результаты без брызг. Однако для тех же веб-сайтов, когда я использую заставку (...
1352 просмотров
schedule 15.08.2023

Как установить время ожидания всплеска в scrapy-splash?
Я использую scrapy-splash для сканирования веб-страницы и запускаю службу splash на докере. общепринято: docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600 Но у меня ошибка 504. "error": {"info": {"timeout": 30},...
4591 просмотров

Scrapy + Splash: очистка элемента внутри внутреннего html
Я использую Scrapy + Splash для сканирования веб-страниц и пытаюсь извлечь данные из рекламных баннеров Google и других объявлений, и мне трудно получить scrapy, чтобы следовать в них по xpath. Я использую Scrpay-Splash API для рендеринга...
3098 просмотров
schedule 06.06.2022

Splash не отображает все содержимое страницы
Я использую Splash v2.3.2 и пытаюсь отобразить страница , но рендерит не все. Он не будет отображать изображения или динамически загружаемый контент. Я использую свой http://localhost:8050/ со сценарием: function main(splash) local url...
1976 просмотров

500 Internal Server Error при объединении Scrapy over Splash с HTTP-прокси
Я пытаюсь просканировать паука Scrapy в контейнере Docker, используя как Splash (для рендеринга JavaScript), так и Tor через Privoxy (для обеспечения анонимности). Вот docker-compose.yml , который я использую для этой цели: version: '3'...
1576 просмотров

Попробуйте Scrapy + Splash
Итак, я играю со Scrapy & Splash и сталкиваюсь с некоторыми проблемами. Я пытался запустить своих пауков и продолжал получать ошибки HTTP 502 и 504. Итак, я попытался проверить Splash в своем браузере. Сначала я сделал «sudo docker run -p 8050:8050...
1484 просмотров

Scrapy CrawlSpider + Splash: как переходить по ссылкам через linkextractor?
У меня есть следующий код, который частично работает, class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(...
3025 просмотров

Всплеск Scrapy не возвращает результаты
Я изучаю скрапирование (с заставкой) и создаю паука для очистки результатов со страниц с поддержкой js. Мой паук работает и возвращает результаты для js-страниц. Однако он не возвращает цену по этой ссылке...
1520 просмотров
schedule 02.12.2022

scrapy, splash, lua, нажатие кнопки
Я новичок во всех инструментах здесь. Моя цель состоит в том, чтобы извлечь все URL-адреса из большого количества страниц, которые связаны не более чем с помощью кнопки «Weiter» / «следующий» - это для нескольких URL-адресов. Я решил попробовать это...
1880 просмотров

Xpath не возвращает содержимое ‹table› в ‹a› (проблема не в tbody)
В следующем коде используется scrapy + scrapy-splash + Python. Я пытаюсь извлечь предстоящие матчи (в том числе: названия команд, название турнира, время начала) с этого сайта: https://www.hltv.org/matches Мой код в функции обратного вызова...
327 просмотров

Splash UI не запускается в Windows
Я установил всплеск на докер с помощью Docker Toolbox и Docker Quickstart Terminal. Это дает этот вывод: $ docker run -p 8050:8050 scrapinghub/splash 2018-02-27 14:29:21+0000 [-] Log opened. 2018-02-27 14:29:21.129146 [-] Splash version: 3.2...
285 просмотров

Подключение к сервису Splash на Kubernetes, GKE
У меня есть контроллер Python, который использует scrapy-splash lib, который отправляет SplashRequest службе Splash. Локально я запускаю и контроллер, и сервис splash в двух разных докерах. yield SplashRequest(url=response.url,...
527 просмотров

ScrapySplash не может найти элементы с : в имени класса
Я использую Srcapy с Splash для обхода веб-сайта с использованием java-фреймворка с именем IFaces. Эти фреймворки используют такие значения, как «_id35:_id48» для идентификатора элемента и имен классов. Когда я сканирую сайт с помощью Splash и...
268 просмотров
schedule 29.10.2023

Splash + Scrapoxy: отсутствует заголовок x-cache-proxyname
Я использую следующую инфраструктуру для очистки веб-сайта: Scrapy <--> Splash <--> Scrapoxy <--> web site Я выполняю запросы через конечную точку Splash execute с помощью сценария Lua. как это: function main(splash)...
321 просмотров

Скрапинг контента, который иногда виден, но не виден другим
Я собираю некоторую информацию с zappos.com, в частности часть страницы сведений, которая показывает, что также просматривали клиенты, просматривающие текущий элемент. Это список одного из таких предметов:...
485 просмотров
schedule 09.07.2023