Вопросы по теме 'scrapyd'

ошибка при развертывании проекта с помощью scrapyd
У меня было несколько пауков в папке моего проекта, и я хотел запустить всех пауков одновременно, поэтому я решил запустить их с помощью службы scrapyd. Я начал делать это, увидев здесь Прежде всего, я в текущей папке проекта Я открыл файл...
8057 просмотров
schedule 01.02.2023

scrapy deploy -L ничего не возвращает
Я пытаюсь развернуть свой проект scrapy, но я застрял У меня определенно есть рабочий проект и несколько пауков: deploy@susychoosy:~/susy_scraper$ scrapy Scrapy 0.17.0 - project: clothes_spider и когда я делаю список скрапинга, он...
146 просмотров
schedule 07.02.2023

Как хранить элементы scrapyd в формате json
Я пытаюсь сохранить scrapyd элементов в JSON file . Фактически по умолчанию он хранит элементы в файле json, но вот так: File_1: {item1} {item2} .... И если я запустил своего паука с помощью scrapy crawl spidername -o fileName -t json...
908 просмотров
schedule 19.12.2022

не удалось развернуть проект scrapy
Внезапно мое развертывание scrapy начинает сбой: sudo scrapy deploy default -p eScraper Password: Building egg of eScraper-1372327569 'build/scripts-2.7' does not exist -- can't clean it zip_safe flag not set; analyzing archive contents......
876 просмотров
schedule 20.03.2023

Ошибка инициализации Scrapyd при запуске паука Scrapy
Я пытаюсь развернуть сканер с четырьмя пауками. Один из пауков использует XMLFeedSpider и отлично работает из оболочки и scrapyd, но другие используют BaseSpider, и все выдают эту ошибку при запуске в scrapyd, но нормально работают из оболочки....
1634 просмотров
schedule 03.10.2023

Scrapy рекурсивно очищает Craigslist
Я использую scrapy, чтобы удалить Craigslist и получить все ссылки, перейти по этой ссылке, сохранить описание для каждой страницы и отправить электронное письмо для ответа. Теперь я написал скрап-скрипт, который просматривает craigslist/sof.com и...
669 просмотров
schedule 05.05.2024

Ошибка при развертывании проекта scrapy в облаке scrapy
Я использую scrapy 0.20 на Python 2.7. Я хочу развернуть свой проект scrapy в облаке scrapy Я разработал свой проект scrapy с помощью простого паука. перейдите в папку моего проекта scrapy. набрал scrapy deploy scrapyd -d koooraspider...
689 просмотров
schedule 01.03.2023

scrapyd pool_intervel для планировщика паука
Я хочу, чтобы мой паук запускался каждые три часа. У меня есть файл конфигурации scrapy, расположенный в папке c:/scrapyd . Я изменил poll_interval на 100 паук работает, но не повторяется каждые 100 секунд. как это сделать пожалуйста?
203 просмотров
schedule 25.05.2023

Почему HttpCacheMiddleware отключен в scrapyd?
Зачем HttpCachedMiddleware нужен scrapy.cfg и как обойти эту проблему? Я использую scrapyd-deploy для сборки яйца и запускаю проект в scrapyd. Когда задание запущено, я вижу из вывода журнала, что HttpCacheMiddleware отключен, потому что...
514 просмотров
schedule 10.08.2022

Изменить количество запущенных пауков scrapyd
Привет, у меня в проекте около 50 пауков, и в настоящее время я запускаю их через сервер scrapyd. Я столкнулся с проблемой, когда некоторые ресурсы, которые я использую, блокируются, из-за чего мои пауки не работают или работают очень медленно. Я...
1301 просмотров

ImportError: Ошибка при загрузке объекта 'scrap.middlewares.RandomUserAgentMiddleware': нет модуля с именем scrap.middlewares
У меня есть проект scrapy portia в ~/portia/slyd/data/projects/scrap , настроенный на использование scrap.middlewares.RandomUserAgentMiddleware в DOWNLOADER_MIDDLEWARES, RandomUserAgentMiddleware определено в...
663 просмотров
schedule 05.12.2022

Scrapy + Django в производстве
Я пишу веб-приложение Django, которое использует Scrapy и локально все отлично работает, но мне интересно, как настроить производственную среду, в которой мои пауки запускаются периодически и автоматически (я имею в виду, что как только пауки...
1271 просмотров
schedule 01.08.2022

pymongo.errors.ConnectionFailure: истекло время ожидания экземпляра ubuntu ec2, на котором запущен scrapyd
Итак ... Я запускаю scrapyd на своем экземпляре ubuntu ec2 после этого сообщения: http://www.dataisbeautiful.io/deploying-scrapy-ec2/ однако я думаю, я не могу заставить pymongo подключиться к моей базе данных MongoLabs mongo, поскольку журналы...
1161 просмотров
schedule 28.10.2023

scrapyd Ошибка в расписании новый спайдер
Я не могу запланировать запуск паука Развертывание вроде нормальное: Deploying to project "scraper" in http://localhost:6800/addversion.json Server response (200): {"status": "ok", "project": "scraper", "version": "1418909664", "spiders": 3}...
445 просмотров
schedule 13.01.2024

Scrapyd не может найти код в подкаталоге
У нас есть вполне нормальный Scrapy-проект, что-то вроде этого: project/ setup.py scrapy.cfg SOME_DIR_WITH_PYTHON_MODULE/ __init__.py project/ settings.py...
292 просмотров
schedule 10.06.2022

Макет в производственном коде
Я постараюсь быть прямо здесь: Я программист Ruby, начиная с Python, и я пробую кое-что со Scrapy. Я просматриваю код, полученный моей компанией от третьей стороны, и одна вещь нарушает развертывание моего Scrapyd (в облаке): ImportError: no...
550 просмотров
schedule 11.09.2023

Параллелизм/проблемы с производительностью при использовании Scrapyd и одиночного паука
Контекст Я запускаю scrapyd 1.1 + scrapy 0.24.6 с одним «гибридным селен-скрейпи» пауком, который сканирует множество доменов в соответствии с параметрами. Машина для разработки, на которой размещаются экземпляры scrapyd, представляет собой OSX...
996 просмотров
schedule 23.08.2022

Импорт функций в другой файл при использовании scrapyd
Я создаю сканер с помощью scrapy и запускаю его на удаленной машине, на которой работает scrapyd. Мой паук довольно длинный и сложный, поэтому я поместил некоторые функции в другой файл def.py . Мой проект выглядит так ./ |-- my_project |...
230 просмотров
schedule 02.09.2022

scrapyd несколько пауков, записывающих элементы в один и тот же файл
У меня есть сервер scrapyd с несколькими пауками, работающими одновременно, я запускаю пауков один за другим, используя конечную точку schedule.json. Все пауки записывают содержимое в общий файл, используя конвейер class...
1480 просмотров

Команда Curl с несколькими параметрами -d в приложении Paw
Рассмотрим следующую команду Curl «работает для меня»: curl http://192.168.2.131:6800/schedule.json -d project=a -d spider=b . Я понятия не имею, как выполнить этот POST в Paw. Импортер завитков в Paw преобразует это в один параметр тела:...
1022 просмотров
schedule 08.10.2022