Вопросы по теме 'scrapyd'
ошибка при развертывании проекта с помощью scrapyd
У меня было несколько пауков в папке моего проекта, и я хотел запустить всех пауков одновременно, поэтому я решил запустить их с помощью службы scrapyd. Я начал делать это, увидев здесь
Прежде всего, я в текущей папке проекта
Я открыл файл...
8057 просмотров
schedule
01.02.2023
scrapy deploy -L ничего не возвращает
Я пытаюсь развернуть свой проект scrapy, но я застрял
У меня определенно есть рабочий проект и несколько пауков:
deploy@susychoosy:~/susy_scraper$ scrapy
Scrapy 0.17.0 - project: clothes_spider
и когда я делаю список скрапинга, он...
146 просмотров
schedule
07.02.2023
Как хранить элементы scrapyd в формате json
Я пытаюсь сохранить scrapyd элементов в JSON file . Фактически по умолчанию он хранит элементы в файле json, но вот так: File_1:
{item1}
{item2}
....
И если я запустил своего паука с помощью scrapy crawl spidername -o fileName -t json...
908 просмотров
schedule
19.12.2022
не удалось развернуть проект scrapy
Внезапно мое развертывание scrapy начинает сбой:
sudo scrapy deploy default -p eScraper
Password:
Building egg of eScraper-1372327569
'build/scripts-2.7' does not exist -- can't clean it
zip_safe flag not set; analyzing archive contents......
876 просмотров
schedule
20.03.2023
Ошибка инициализации Scrapyd при запуске паука Scrapy
Я пытаюсь развернуть сканер с четырьмя пауками. Один из пауков использует XMLFeedSpider и отлично работает из оболочки и scrapyd, но другие используют BaseSpider, и все выдают эту ошибку при запуске в scrapyd, но нормально работают из оболочки....
1634 просмотров
schedule
03.10.2023
Scrapy рекурсивно очищает Craigslist
Я использую scrapy, чтобы удалить Craigslist и получить все ссылки, перейти по этой ссылке, сохранить описание для каждой страницы и отправить электронное письмо для ответа. Теперь я написал скрап-скрипт, который просматривает craigslist/sof.com и...
669 просмотров
schedule
05.05.2024
Ошибка при развертывании проекта scrapy в облаке scrapy
Я использую scrapy 0.20 на Python 2.7.
Я хочу развернуть свой проект scrapy в облаке scrapy
Я разработал свой проект scrapy с помощью простого паука.
перейдите в папку моего проекта scrapy.
набрал scrapy deploy scrapyd -d koooraspider...
689 просмотров
schedule
01.03.2023
scrapyd pool_intervel для планировщика паука
Я хочу, чтобы мой паук запускался каждые три часа.
У меня есть файл конфигурации scrapy, расположенный в папке c:/scrapyd .
Я изменил poll_interval на 100
паук работает, но не повторяется каждые 100 секунд.
как это сделать пожалуйста?
203 просмотров
schedule
25.05.2023
Почему HttpCacheMiddleware отключен в scrapyd?
Зачем HttpCachedMiddleware нужен scrapy.cfg и как обойти эту проблему?
Я использую scrapyd-deploy для сборки яйца и запускаю проект в scrapyd.
Когда задание запущено, я вижу из вывода журнала, что HttpCacheMiddleware отключен, потому что...
514 просмотров
schedule
10.08.2022
Изменить количество запущенных пауков scrapyd
Привет, у меня в проекте около 50 пауков, и в настоящее время я запускаю их через сервер scrapyd. Я столкнулся с проблемой, когда некоторые ресурсы, которые я использую, блокируются, из-за чего мои пауки не работают или работают очень медленно. Я...
1301 просмотров
schedule
14.02.2023
ImportError: Ошибка при загрузке объекта 'scrap.middlewares.RandomUserAgentMiddleware': нет модуля с именем scrap.middlewares
У меня есть проект scrapy portia в ~/portia/slyd/data/projects/scrap , настроенный на использование scrap.middlewares.RandomUserAgentMiddleware в DOWNLOADER_MIDDLEWARES, RandomUserAgentMiddleware определено в...
663 просмотров
schedule
05.12.2022
Scrapy + Django в производстве
Я пишу веб-приложение Django, которое использует Scrapy и локально все отлично работает, но мне интересно, как настроить производственную среду, в которой мои пауки запускаются периодически и автоматически (я имею в виду, что как только пауки...
1271 просмотров
schedule
01.08.2022
pymongo.errors.ConnectionFailure: истекло время ожидания экземпляра ubuntu ec2, на котором запущен scrapyd
Итак ... Я запускаю scrapyd на своем экземпляре ubuntu ec2 после этого сообщения: http://www.dataisbeautiful.io/deploying-scrapy-ec2/
однако я думаю, я не могу заставить pymongo подключиться к моей базе данных MongoLabs mongo, поскольку журналы...
1161 просмотров
schedule
28.10.2023
scrapyd Ошибка в расписании новый спайдер
Я не могу запланировать запуск паука
Развертывание вроде нормальное:
Deploying to project "scraper" in http://localhost:6800/addversion.json
Server response (200):
{"status": "ok", "project": "scraper", "version": "1418909664", "spiders": 3}...
445 просмотров
schedule
13.01.2024
Scrapyd не может найти код в подкаталоге
У нас есть вполне нормальный Scrapy-проект, что-то вроде этого:
project/
setup.py
scrapy.cfg
SOME_DIR_WITH_PYTHON_MODULE/
__init__.py
project/
settings.py...
292 просмотров
schedule
10.06.2022
Макет в производственном коде
Я постараюсь быть прямо здесь:
Я программист Ruby, начиная с Python, и я пробую кое-что со Scrapy. Я просматриваю код, полученный моей компанией от третьей стороны, и одна вещь нарушает развертывание моего Scrapyd (в облаке):
ImportError: no...
550 просмотров
schedule
11.09.2023
Параллелизм/проблемы с производительностью при использовании Scrapyd и одиночного паука
Контекст
Я запускаю scrapyd 1.1 + scrapy 0.24.6 с одним «гибридным селен-скрейпи» пауком, который сканирует множество доменов в соответствии с параметрами. Машина для разработки, на которой размещаются экземпляры scrapyd, представляет собой OSX...
996 просмотров
schedule
23.08.2022
Импорт функций в другой файл при использовании scrapyd
Я создаю сканер с помощью scrapy и запускаю его на удаленной машине, на которой работает scrapyd. Мой паук довольно длинный и сложный, поэтому я поместил некоторые функции в другой файл def.py .
Мой проект выглядит так
./
|-- my_project
|...
230 просмотров
schedule
02.09.2022
scrapyd несколько пауков, записывающих элементы в один и тот же файл
У меня есть сервер scrapyd с несколькими пауками, работающими одновременно, я запускаю пауков один за другим, используя конечную точку schedule.json. Все пауки записывают содержимое в общий файл, используя конвейер
class...
1480 просмотров
schedule
10.06.2023
Команда Curl с несколькими параметрами -d в приложении Paw
Рассмотрим следующую команду Curl «работает для меня»:
curl http://192.168.2.131:6800/schedule.json -d project=a -d spider=b .
Я понятия не имею, как выполнить этот POST в Paw. Импортер завитков в Paw преобразует это в один параметр тела:...
1022 просмотров
schedule
08.10.2022