Публикации по тегам scrapy-pipeline

Вопросы по теме 'scrapy-pipeline'

Невозможно загрузить изображения с веб-сайта с помощью scrapy

Я начинаю с Scrapy, чтобы автоматизировать загрузку файлов с веб-сайтов. В качестве теста я хочу загрузить файлы jpg с этого веб-сайта. Мой код основан на вводном руководстве и руководство по конвейеру файлов и изображений на веб-сайте Scrapy....

1137 просмотров

18.09.2023

scrapyd несколько пауков, записывающих элементы в один и тот же файл

У меня есть сервер scrapyd с несколькими пауками, работающими одновременно, я запускаю пауков один за другим, используя конечную точку schedule.json. Все пауки записывают содержимое в общий файл, используя конвейер class...

1480 просмотров

scrapy scrapyd scrapy-spider scrapy-pipeline

10.06.2023

Поток Rethinkdb с помощью scrapy

Я ищу простой учебник, объясняющий, как писать элементы в Rethinkdb из scrapy. Эквивалент для MongoDB можно найти здесь .

150 просмотров

python-2.7 scrapy rethinkdb scrapy-pipeline rethinkdb-python

13.06.2022

Scrapy: изменение приоритетов загрузки медиа-конвейера: как отложить загрузку медиа-файлов в самом конце сканирования?

http://doc.scrapy.org/en/latest/topics/media-pipeline.html Когда элемент достигает FilesPipeline, URL-адреса в поле file_urls планируются для загрузки с использованием стандартного планировщика и загрузчика Scrapy (что означает, что...

368 просмотров

scrapy scrapy-spider scrapy-pipeline

18.02.2023

Используйте модели Django в проекте Scrapy (в разработке)

Об этом уже спрашивали, но ответ, который всегда возникает, заключается в использовании DjangoItem . Однако на github указано, что: часто не лучший выбор для приложений с интенсивной записью (таких как поисковый робот) ... может плохо...

3725 просмотров

python django django-models scrapy scrapy-pipeline

17.08.2023

Scrapy не вызывает назначенный конвейер при запуске из скрипта

У меня есть кусок кода для тестирования scrapy. Моя цель — использовать scrapy без вызова команды scrapy из терминала, чтобы я мог встроить этот код в другое место. Код следующий: from scrapy import Spider from scrapy.selector import...

1239 просмотров

python-3.x ubuntu scrapy scrapy-pipeline

21.04.2024

Scrapy: как использовать элементы в пауке и как отправлять элементы в пайплайны?

Я новичок в scrapy и моя задача проста: Для данного веб-сайта электронной коммерции: просканировать все страницы сайта ищите страницу продуктов Если URL-адрес указывает на страницу продукта Создать элемент Обработать...

20417 просмотров

python scrapy scrapy-spider scrapy-pipeline

19.05.2023

Python + Scrapy переименовывает загруженные изображения

ВАЖНОЕ ПРИМЕЧАНИЕ: все ответы, доступные на данный момент в stackoverflow, относятся к предыдущим версиям Scrapy и не работают с последней версией scrapy 1.4 Совершенно новый для scrapy и python, я пытаюсь очистить некоторые страницы и загрузить...

1910 просмотров

python web-scraping scrapy scrapy-spider scrapy-pipeline

19.05.2023

Невозможно передать пустой URL-адрес через скрап-конвейер

У меня есть список объектов данных, каждый из которых содержит URL-адрес для очистки. Некоторые из этих URL-адресов недействительны, но я все же хочу, чтобы объект данных провалился, чтобы достичь конвейеров элементов. После ответа @tomáš-linhart...

609 просмотров

python-3.x scrapy scrapy-pipeline

11.09.2022

Доступ к экземпляру класса scrapy pipe

Я хочу получить доступ к переменной self.cursor , чтобы использовать активное соединение postgreSQL, но я не могу понять, как получить доступ к экземпляру scrapy класса конвейера. class ScrapenewsPipeline(object): def open_spider(self,...

463 просмотров

python-3.x scrapy scrapy-spider scrapy-pipeline

21.07.2022

Scrapy хранит возвращенные элементы в переменных для использования в основном скрипте

Я новичок в Scrapy и хочу попробовать следующее: извлечь некоторые значения с веб-страницы, сохранить их в переменной и использовать в моем основном скрипте. Поэтому я последовал их руководству и изменил код для своих целей: import scrapy from...

1473 просмотров

python web-scraping scrapy scrapy-spider scrapy-pipeline

03.08.2023

Конвейер Scrapy-MySQL не сохраняет данные

Я очищаю веб-сайт для его внешних ссылок, используя scrapy, и сохраняю эти ссылки в базе данных MYSQl. я использовал фрагмент в своем коде. когда я запускаю паука, я вижу, что ссылки удаляются, но выдает ошибку 2018-03-07 13:33:27...

348 просмотров

python-3.x python mysql scrapy scrapy-pipeline

29.02.2024

дать имя выходного файла внутри сканера scrapy

У меня есть проект scrapy, написанный на python 3.6. и в проекте есть 3 сканера, он просто собирает элементы с 3 разных веб-сайтов, по одному сканеру для каждого веб-сайта. Я использую элемент из items.py в сценарии, выполняющем yield item ,...

691 просмотров

python scrapy scrapy-pipeline

06.02.2024

Формирование экспорта .json в Scrapy

Просто быстрый вопрос о форматировании экспорта json в Scrapy. Мой экспортированный файл выглядит так. {"pages": {"title": "x", "text": "x", "tags": "x", "url": "x"}} {"pages": {"title": "x", "text": "x", "tags": "x", "url": "x"}} {"pages":...

1474 просмотров

python json export scrapy scrapy-pipeline

17.07.2022

Scrapy не может загружать изображения с URL-адреса

Я использую scrapy для загрузки изображений, но он не работает. Я получаю URL-адрес в нужной папке, но не изображения. Вот мои items.py: class Brand(scrapy.Item): name = scrapy.Field() url = scrapy.Field() brand_image =...

406 просмотров

python scrapy scrapy-shell scrapy-spider scrapy-pipeline

11.06.2023

Как получить/импортировать список элементов Scrapy из items.py в pipes.py?

В моем items.py : class NewAdsItem(Item): AdId = Field() DateR = Field() AdURL = Field() В моем pipelines.py : import sqlite3 from scrapy.conf import settings con = None class DbPipeline(object):...

214 просмотров

python-3.x scrapy scrapy-pipeline

06.02.2023

TypeError: ожидаемый объект str, bytes или os.PathLike, не установлен - ошибка Scrapy

Я новичок в использовании Scrapy. Я пытаюсь загрузить изображение и настроить конвейеры, но иногда возникает ошибка, и я не могу понять этого. books.py class Books2Spider(Spider): name = 'books2' allowed_domains =...

788 просмотров

python web-crawler scrapy scrapy-pipeline

23.03.2022

Scrapinghub вставляет мои результаты в журнал, а не в элемент

У меня есть работающий проект паука для извлечения содержимого URL-адресов (без css). Я просканировал несколько наборов данных и сохранил их в серии файлов .csv. Теперь я пытаюсь настроить его для работы на Scrapinghub, чтобы провести длительный...

192 просмотров

json scrapinghub scrapy scrapy-spider scrapy-pipeline

01.09.2023

Scrapy Может ли фильтр дубликатов быть постоянным с заданиями?

from scrapy.exceptions import DropItem class DuplicatesPipeline(object): def __init__(self): self.ids_seen = set() def process_item(self, item, spider): if item['id'] in self.ids_seen: raise DropItem("Duplicate...

51 просмотров

python web-scraping web-crawler scrapy scrapy-pipeline

19.06.2022

Где я должен привязать соединение db/redis к scrapy?

Извините, что беспокою вас, ребята. Это плохой вопрос, кажется, меня действительно смутило то, как ItemPipeline работает в scrapy. Я закрою его и начну новый вопрос. Где я должен привязать соединение db/redis к scrapy, Spider или Pipeline ....

215 просмотров

python web-scraping web-crawler scrapy scrapy-pipeline

26.09.2022