Публикации по тегам scrapinghub

Вопросы по теме 'scrapinghub'

Достижение следующей страницы через javascript в scrapy python с заставкой?

На самом деле мое намерение состоит в том, чтобы добиться следующего от "href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')" , поэтому просто для примера я беру [этот URL] [1]. Из этого URL-адреса вы можете увидеть «Далее»...

2538 просмотров

02.06.2024

Доступ к количеству журналов во время работы в scrapinghub

У меня есть небольшое расширение scrapy, которое просматривает объект статистики сканера и отправляет мне электронное письмо, если сканер выдал сообщения журнала определенного типа (например, ПРЕДУПРЕЖДЕНИЕ, КРИТИЧЕСКОЕ, ОШИБКА). Эта статистика...

842 просмотров

python scrapinghub scrapy

09.04.2023

Сбой задания Scrapinghub — не удается диагностировать

Паук остановился в середине сканирования (после 7 часов работы, 20 тысяч запросов). Статус задания - "неудачно". Даже если в журнале нет сообщений об ОШИБКЕ. Журнал выглядит так, как будто код просто перестал работать в определенном диапазоне строк...

35 просмотров

scrapinghub

15.03.2023

Как использовать pip для установки промежуточного ПО на Scrapinghub

У меня есть проект scrapy, который использует установку промежуточного программного обеспечения через pip. В частности, scrapy-random-useragent . Установка файла # - - кодировка: utf-8 - - # Scrapy settings for batdongsan project # # For...

286 просмотров

pip python scrapinghub scrapy

24.09.2022

Scrapy, как сохранить состояние между запусками паука (через scrapinghub)?

У меня есть паук, который будет работать по расписанию. Ввод паука основан на дате. От даты последней очистки до сегодняшней даты. Итак, вопрос в том, как сохранить дату последней очистки в проекте Scrapy? Есть возможность получить данные из...

433 просмотров

python-2.7 scrapinghub scrapy

01.09.2022

Не удалось развернуть из-за нескольких пауков с помощью Scrapinghub.

Я создаю проект с помощью scrapy и сохраняю данные в свой mongodb. Это может сработать. Вот мой код: # -*- coding: utf-8 -*- import scrapy from scrapy import Request import time # scrapy api imports from scrapy.crawler import CrawlerProcess...

150 просмотров

python scrapinghub scrapy

02.10.2022

Scrapy запретить посещение одного и того же URL-адреса по расписанию

Я планирую развернуть паука Scrapy на ScrapingHub и использовать функцию расписания для ежедневного запуска паука. Я знаю, что по умолчанию Scrapy не посещает одни и те же URL-адреса. Однако мне было интересно, сохраняется ли это предотвращение...

250 просмотров

scrapinghub scrapy

18.05.2023

загрузка и использование файла scrapinghub

Я загрузил своего паука на scrapyhub . Я понимаю, как загружать с моим *.txt файлом, но как мне его использовать? Мой файл setup.py выглядит так: setup( name = 'project', version = '1.0', packages =...

363 просмотров

python-3.x scrapinghub scrapy

19.07.2022

Scrapinghub вставляет мои результаты в журнал, а не в элемент

У меня есть работающий проект паука для извлечения содержимого URL-адресов (без css). Я просканировал несколько наборов данных и сохранил их в серии файлов .csv. Теперь я пытаюсь настроить его для работы на Scrapinghub, чтобы провести длительный...

192 просмотров

json scrapinghub scrapy scrapy-spider scrapy-pipeline

01.09.2023

Scrapy вызывает исключение, поднимающее _DefGen_Return(val) twisted.internet.defer._DefGen_Return:

Когда я запускаю код локально (Windows 10), все работает нормально. Проверили другие ответы здесь и на других ресурсах, но не смогли найти никакого решения. После развертывания в ScrapingHub я получаю это сообщение об ошибке:...

427 просмотров

python-3.x scrapinghub scrapy twisted twisted.internet

06.03.2023

Как я могу очистить изображение с помощью Beautiful Soup и python

Я пытаюсь очистить ссылку на изображение из приведенной ниже ссылки, но я не могу Ссылка: https://www.online.citibank.co.in/credit-card/rewards/citi-rewards-credit-card?eOfferCode=INCCCCTWAFCTRELM Я использовал приведенный ниже код x = '...

49 просмотров

python web-scraping python-requests beautifulsoup scrapinghub

26.09.2022