Вопросы по теме 'scrapy-pipeline'

Невозможно загрузить изображения с веб-сайта с помощью scrapy
Я начинаю с Scrapy, чтобы автоматизировать загрузку файлов с веб-сайтов. В качестве теста я хочу загрузить файлы jpg с этого веб-сайта. Мой код основан на вводном руководстве и руководство по конвейеру файлов и изображений на веб-сайте Scrapy....
1137 просмотров

scrapyd несколько пауков, записывающих элементы в один и тот же файл
У меня есть сервер scrapyd с несколькими пауками, работающими одновременно, я запускаю пауков один за другим, используя конечную точку schedule.json. Все пауки записывают содержимое в общий файл, используя конвейер class...
1480 просмотров

Поток Rethinkdb с помощью scrapy
Я ищу простой учебник, объясняющий, как писать элементы в Rethinkdb из scrapy. Эквивалент для MongoDB можно найти здесь .
150 просмотров

Scrapy: изменение приоритетов загрузки медиа-конвейера: как отложить загрузку медиа-файлов в самом конце сканирования?
http://doc.scrapy.org/en/latest/topics/media-pipeline.html Когда элемент достигает FilesPipeline, URL-адреса в поле file_urls планируются для загрузки с использованием стандартного планировщика и загрузчика Scrapy (что означает, что...
368 просмотров
schedule 18.02.2023

Используйте модели Django в проекте Scrapy (в разработке)
Об этом уже спрашивали, но ответ, который всегда возникает, заключается в использовании DjangoItem . Однако на github указано, что: часто не лучший выбор для приложений с интенсивной записью (таких как поисковый робот) ... может плохо...
3725 просмотров

Scrapy не вызывает назначенный конвейер при запуске из скрипта
У меня есть кусок кода для тестирования scrapy. Моя цель — использовать scrapy без вызова команды scrapy из терминала, чтобы я мог встроить этот код в другое место. Код следующий: from scrapy import Spider from scrapy.selector import...
1239 просмотров
schedule 21.04.2024

Scrapy: как использовать элементы в пауке и как отправлять элементы в пайплайны?
Я новичок в scrapy и моя задача проста: Для данного веб-сайта электронной коммерции: просканировать все страницы сайта ищите страницу продуктов Если URL-адрес указывает на страницу продукта Создать элемент Обработать...
20417 просмотров

Python + Scrapy переименовывает загруженные изображения
ВАЖНОЕ ПРИМЕЧАНИЕ: все ответы, доступные на данный момент в stackoverflow, относятся к предыдущим версиям Scrapy и не работают с последней версией scrapy 1.4 Совершенно новый для scrapy и python, я пытаюсь очистить некоторые страницы и загрузить...
1910 просмотров

Невозможно передать пустой URL-адрес через скрап-конвейер
У меня есть список объектов данных, каждый из которых содержит URL-адрес для очистки. Некоторые из этих URL-адресов недействительны, но я все же хочу, чтобы объект данных провалился, чтобы достичь конвейеров элементов. После ответа @tomáš-linhart...
609 просмотров
schedule 11.09.2022

Доступ к экземпляру класса scrapy pipe
Я хочу получить доступ к переменной self.cursor , чтобы использовать активное соединение postgreSQL, но я не могу понять, как получить доступ к экземпляру scrapy класса конвейера. class ScrapenewsPipeline(object): def open_spider(self,...
463 просмотров

Scrapy хранит возвращенные элементы в переменных для использования в основном скрипте
Я новичок в Scrapy и хочу попробовать следующее: извлечь некоторые значения с веб-страницы, сохранить их в переменной и использовать в моем основном скрипте. Поэтому я последовал их руководству и изменил код для своих целей: import scrapy from...
1473 просмотров

Конвейер Scrapy-MySQL не сохраняет данные
Я очищаю веб-сайт для его внешних ссылок, используя scrapy, и сохраняю эти ссылки в базе данных MYSQl. я использовал фрагмент в своем коде. когда я запускаю паука, я вижу, что ссылки удаляются, но выдает ошибку 2018-03-07 13:33:27...
348 просмотров

дать имя выходного файла внутри сканера scrapy
У меня есть проект scrapy, написанный на python 3.6. и в проекте есть 3 сканера, он просто собирает элементы с 3 разных веб-сайтов, по одному сканеру для каждого веб-сайта. Я использую элемент из items.py в сценарии, выполняющем yield item ,...
691 просмотров
schedule 06.02.2024

Формирование экспорта .json в Scrapy
Просто быстрый вопрос о форматировании экспорта json в Scrapy. Мой экспортированный файл выглядит так. {"pages": {"title": "x", "text": "x", "tags": "x", "url": "x"}} {"pages": {"title": "x", "text": "x", "tags": "x", "url": "x"}} {"pages":...
1474 просмотров
schedule 17.07.2022

Scrapy не может загружать изображения с URL-адреса
Я использую scrapy для загрузки изображений, но он не работает. Я получаю URL-адрес в нужной папке, но не изображения. Вот мои items.py: class Brand(scrapy.Item): name = scrapy.Field() url = scrapy.Field() brand_image =...
406 просмотров

Как получить/импортировать список элементов Scrapy из items.py в pipes.py?
В моем items.py : class NewAdsItem(Item): AdId = Field() DateR = Field() AdURL = Field() В моем pipelines.py : import sqlite3 from scrapy.conf import settings con = None class DbPipeline(object):...
214 просмотров
schedule 06.02.2023

TypeError: ожидаемый объект str, bytes или os.PathLike, не установлен - ошибка Scrapy
Я новичок в использовании Scrapy. Я пытаюсь загрузить изображение и настроить конвейеры, но иногда возникает ошибка, и я не могу понять этого. books.py class Books2Spider(Spider): name = 'books2' allowed_domains =...
788 просмотров

Scrapinghub вставляет мои результаты в журнал, а не в элемент
У меня есть работающий проект паука для извлечения содержимого URL-адресов (без css). Я просканировал несколько наборов данных и сохранил их в серии файлов .csv. Теперь я пытаюсь настроить его для работы на Scrapinghub, чтобы провести длительный...
192 просмотров

Scrapy Может ли фильтр дубликатов быть постоянным с заданиями?
from scrapy.exceptions import DropItem class DuplicatesPipeline(object): def __init__(self): self.ids_seen = set() def process_item(self, item, spider): if item['id'] in self.ids_seen: raise DropItem("Duplicate...
51 просмотров

Где я должен привязать соединение db/redis к scrapy?
Извините, что беспокою вас, ребята. Это плохой вопрос, кажется, меня действительно смутило то, как ItemPipeline работает в scrapy. Я закрою его и начну новый вопрос. Где я должен привязать соединение db/redis к scrapy, Spider или Pipeline ....
215 просмотров