Вопросы по теме 'scrapinghub'

Достижение следующей страницы через javascript в scrapy python с заставкой?
На самом деле мое намерение состоит в том, чтобы добиться следующего от "href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')" , поэтому просто для примера я беру [этот URL] [1]. Из этого URL-адреса вы можете увидеть «Далее»...
2538 просмотров
schedule 02.06.2024

Доступ к количеству журналов во время работы в scrapinghub
У меня есть небольшое расширение scrapy, которое просматривает объект статистики сканера и отправляет мне электронное письмо, если сканер выдал сообщения журнала определенного типа (например, ПРЕДУПРЕЖДЕНИЕ, КРИТИЧЕСКОЕ, ОШИБКА). Эта статистика...
842 просмотров
schedule 09.04.2023

Сбой задания Scrapinghub — не удается диагностировать
Паук остановился в середине сканирования (после 7 часов работы, 20 тысяч запросов). Статус задания - "неудачно". Даже если в журнале нет сообщений об ОШИБКЕ. Журнал выглядит так, как будто код просто перестал работать в определенном диапазоне строк...
35 просмотров
schedule 15.03.2023

Как использовать pip для установки промежуточного ПО на Scrapinghub
У меня есть проект scrapy, который использует установку промежуточного программного обеспечения через pip. В частности, scrapy-random-useragent . Установка файла # - - кодировка: utf-8 - - # Scrapy settings for batdongsan project # # For...
286 просмотров
schedule 24.09.2022

Scrapy, как сохранить состояние между запусками паука (через scrapinghub)?
У меня есть паук, который будет работать по расписанию. Ввод паука основан на дате. От даты последней очистки до сегодняшней даты. Итак, вопрос в том, как сохранить дату последней очистки в проекте Scrapy? Есть возможность получить данные из...
433 просмотров
schedule 01.09.2022

Не удалось развернуть из-за нескольких пауков с помощью Scrapinghub.
Я создаю проект с помощью scrapy и сохраняю данные в свой mongodb. Это может сработать. Вот мой код: # -*- coding: utf-8 -*- import scrapy from scrapy import Request import time # scrapy api imports from scrapy.crawler import CrawlerProcess...
150 просмотров
schedule 02.10.2022

Scrapy запретить посещение одного и того же URL-адреса по расписанию
Я планирую развернуть паука Scrapy на ScrapingHub и использовать функцию расписания для ежедневного запуска паука. Я знаю, что по умолчанию Scrapy не посещает одни и те же URL-адреса. Однако мне было интересно, сохраняется ли это предотвращение...
250 просмотров
schedule 18.05.2023

загрузка и использование файла scrapinghub
Я загрузил своего паука на scrapyhub . Я понимаю, как загружать с моим *.txt файлом, но как мне его использовать? Мой файл setup.py выглядит так: setup( name = 'project', version = '1.0', packages =...
363 просмотров
schedule 19.07.2022

Scrapinghub вставляет мои результаты в журнал, а не в элемент
У меня есть работающий проект паука для извлечения содержимого URL-адресов (без css). Я просканировал несколько наборов данных и сохранил их в серии файлов .csv. Теперь я пытаюсь настроить его для работы на Scrapinghub, чтобы провести длительный...
192 просмотров

Scrapy вызывает исключение, поднимающее _DefGen_Return(val) twisted.internet.defer._DefGen_Return:
Когда я запускаю код локально (Windows 10), все работает нормально. Проверили другие ответы здесь и на других ресурсах, но не смогли найти никакого решения. После развертывания в ScrapingHub я получаю это сообщение об ошибке:...
427 просмотров

Как я могу очистить изображение с помощью Beautiful Soup и python
Я пытаюсь очистить ссылку на изображение из приведенной ниже ссылки, но я не могу Ссылка: https://www.online.citibank.co.in/credit-card/rewards/citi-rewards-credit-card?eOfferCode=INCCCCTWAFCTRELM Я использовал приведенный ниже код x = '...
49 просмотров