Вопросы по теме 'scrapy-pipeline'
Невозможно загрузить изображения с веб-сайта с помощью scrapy
Я начинаю с Scrapy, чтобы автоматизировать загрузку файлов с веб-сайтов. В качестве теста я хочу загрузить файлы jpg с этого веб-сайта. Мой код основан на вводном руководстве и руководство по конвейеру файлов и изображений на веб-сайте Scrapy....
1137 просмотров
schedule
18.09.2023
scrapyd несколько пауков, записывающих элементы в один и тот же файл
У меня есть сервер scrapyd с несколькими пауками, работающими одновременно, я запускаю пауков один за другим, используя конечную точку schedule.json. Все пауки записывают содержимое в общий файл, используя конвейер
class...
1480 просмотров
schedule
10.06.2023
Поток Rethinkdb с помощью scrapy
Я ищу простой учебник, объясняющий, как писать элементы в Rethinkdb из scrapy. Эквивалент для MongoDB можно найти здесь .
150 просмотров
schedule
13.06.2022
Scrapy: изменение приоритетов загрузки медиа-конвейера: как отложить загрузку медиа-файлов в самом конце сканирования?
http://doc.scrapy.org/en/latest/topics/media-pipeline.html
Когда элемент достигает FilesPipeline, URL-адреса в поле file_urls планируются для загрузки с использованием стандартного планировщика и загрузчика Scrapy (что означает, что...
368 просмотров
schedule
18.02.2023
Используйте модели Django в проекте Scrapy (в разработке)
Об этом уже спрашивали, но ответ, который всегда возникает, заключается в использовании DjangoItem . Однако на github указано, что:
часто не лучший выбор для приложений с интенсивной записью (таких как поисковый робот) ... может плохо...
3725 просмотров
schedule
17.08.2023
Scrapy не вызывает назначенный конвейер при запуске из скрипта
У меня есть кусок кода для тестирования scrapy. Моя цель — использовать scrapy без вызова команды scrapy из терминала, чтобы я мог встроить этот код в другое место.
Код следующий:
from scrapy import Spider
from scrapy.selector import...
1239 просмотров
schedule
21.04.2024
Scrapy: как использовать элементы в пауке и как отправлять элементы в пайплайны?
Я новичок в scrapy и моя задача проста:
Для данного веб-сайта электронной коммерции:
просканировать все страницы сайта
ищите страницу продуктов
Если URL-адрес указывает на страницу продукта
Создать элемент
Обработать...
20417 просмотров
schedule
19.05.2023
Python + Scrapy переименовывает загруженные изображения
ВАЖНОЕ ПРИМЕЧАНИЕ: все ответы, доступные на данный момент в stackoverflow, относятся к предыдущим версиям Scrapy и не работают с последней версией scrapy 1.4
Совершенно новый для scrapy и python, я пытаюсь очистить некоторые страницы и загрузить...
1910 просмотров
schedule
19.05.2023
Невозможно передать пустой URL-адрес через скрап-конвейер
У меня есть список объектов данных, каждый из которых содержит URL-адрес для очистки. Некоторые из этих URL-адресов недействительны, но я все же хочу, чтобы объект данных провалился, чтобы достичь конвейеров элементов.
После ответа @tomáš-linhart...
609 просмотров
schedule
11.09.2022
Доступ к экземпляру класса scrapy pipe
Я хочу получить доступ к переменной self.cursor , чтобы использовать активное соединение postgreSQL, но я не могу понять, как получить доступ к экземпляру scrapy класса конвейера.
class ScrapenewsPipeline(object):
def open_spider(self,...
463 просмотров
schedule
21.07.2022
Scrapy хранит возвращенные элементы в переменных для использования в основном скрипте
Я новичок в Scrapy и хочу попробовать следующее: извлечь некоторые значения с веб-страницы, сохранить их в переменной и использовать в моем основном скрипте. Поэтому я последовал их руководству и изменил код для своих целей:
import scrapy
from...
1473 просмотров
schedule
03.08.2023
Конвейер Scrapy-MySQL не сохраняет данные
Я очищаю веб-сайт для его внешних ссылок, используя scrapy, и сохраняю эти ссылки в базе данных MYSQl. я использовал фрагмент в своем коде. когда я запускаю паука, я вижу, что ссылки удаляются, но выдает ошибку
2018-03-07 13:33:27...
348 просмотров
schedule
29.02.2024
дать имя выходного файла внутри сканера scrapy
У меня есть проект scrapy, написанный на python 3.6. и в проекте есть 3 сканера, он просто собирает элементы с 3 разных веб-сайтов, по одному сканеру для каждого веб-сайта. Я использую элемент из items.py в сценарии, выполняющем yield item ,...
691 просмотров
schedule
06.02.2024
Формирование экспорта .json в Scrapy
Просто быстрый вопрос о форматировании экспорта json в Scrapy. Мой экспортированный файл выглядит так.
{"pages": {"title": "x", "text": "x", "tags": "x", "url": "x"}}
{"pages": {"title": "x", "text": "x", "tags": "x", "url": "x"}}
{"pages":...
1474 просмотров
schedule
17.07.2022
Scrapy не может загружать изображения с URL-адреса
Я использую scrapy для загрузки изображений, но он не работает. Я получаю URL-адрес в нужной папке, но не изображения.
Вот мои items.py:
class Brand(scrapy.Item):
name = scrapy.Field()
url = scrapy.Field()
brand_image =...
406 просмотров
schedule
11.06.2023
Как получить/импортировать список элементов Scrapy из items.py в pipes.py?
В моем items.py :
class NewAdsItem(Item):
AdId = Field()
DateR = Field()
AdURL = Field()
В моем pipelines.py :
import sqlite3
from scrapy.conf import settings
con = None
class DbPipeline(object):...
214 просмотров
schedule
06.02.2023
TypeError: ожидаемый объект str, bytes или os.PathLike, не установлен - ошибка Scrapy
Я новичок в использовании Scrapy. Я пытаюсь загрузить изображение и настроить конвейеры, но иногда возникает ошибка, и я не могу понять этого.
books.py
class Books2Spider(Spider):
name = 'books2'
allowed_domains =...
788 просмотров
schedule
23.03.2022
Scrapinghub вставляет мои результаты в журнал, а не в элемент
У меня есть работающий проект паука для извлечения содержимого URL-адресов (без css). Я просканировал несколько наборов данных и сохранил их в серии файлов .csv. Теперь я пытаюсь настроить его для работы на Scrapinghub, чтобы провести длительный...
192 просмотров
schedule
01.09.2023
Scrapy Может ли фильтр дубликатов быть постоянным с заданиями?
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Duplicate...
51 просмотров
schedule
19.06.2022
Где я должен привязать соединение db/redis к scrapy?
Извините, что беспокою вас, ребята. Это плохой вопрос, кажется, меня действительно смутило то, как ItemPipeline работает в scrapy. Я закрою его и начну новый вопрос.
Где я должен привязать соединение db/redis к scrapy, Spider или Pipeline ....
215 просмотров
schedule
26.09.2022