Вопросы по теме 'scrapy-shell'

Scrapy response.xpath ничего не возвращает для запроса
Я использую оболочку scrapy для извлечения некоторых текстовых данных. Вот команды, которые я дал в оболочке scrapy: >>> scrapy shell...
681 просмотров

Не удается получить ссылку Image src с помощью XPath
Я использую Scrapy для сканирования ссылки src на изображение продукта на этом сайте: http://eshop.tesco.com.my/en-GB/Promotion/List?SortBy=Default По некоторым причинам Xpath не захватывает src-ссылки на изображения продуктов. Я попытался...
559 просмотров

Как извлечь текст с помощью Xpath в Scrapy?
Хорошо, кажется, я перепробовал все и просто не могу понять, что здесь происходит. Прямая ссылка на сайт, который я пытаюсь получить, —...
535 просмотров
schedule 15.03.2023

python scrapy 302 (я хочу вернуть исходную страницу)
Я собираюсь очистить https://movie.douban.com/subject/1292052/ эта страница но URL перенаправляет на http://m.douban.com/movie/subject/1292052 как мне вернуться на первую страницу и использовать способ синтаксического анализа первой страницы...
106 просмотров
schedule 19.03.2023

Как извлечь новости Google с определенным ключевым словом с помощью scrapy?
Я новичок в scrapy, пытаюсь извлечь новости Google из указанной ниже ссылки:...
444 просмотров
schedule 04.07.2022

Scrapy не может загружать изображения с URL-адреса
Я использую scrapy для загрузки изображений, но он не работает. Я получаю URL-адрес в нужной папке, но не изображения. Вот мои items.py: class Brand(scrapy.Item): name = scrapy.Field() url = scrapy.Field() brand_image =...
406 просмотров

Scrapy FormRequest не может обрабатывать сложные диктовки как данные формы
Я пытаюсь предоставить данные формы объекту scrapy.FormRequest. Formdata представляет собой dict следующей структуры: { "param1": [ { "paramA": "valueA", "paramB": "valueB" } ] } через эквивалент следующего кода,...
370 просмотров

Веб-парсинг: пустые / нет данных / пустые записи при запуске паука, правильные записи в оболочке scrapy
Сканируя веб-сайт с порно, я делаю паука, который ползает по страницам в поисках новейших видео, очищая метаданные для каждого из 32 видео на странице. Далее мой код для паука: class NaughtySpider(scrapy.Spider): name = "naughtyspider"...
269 просмотров
schedule 19.06.2023

не удалось очистить https://angel.co/
Я пытаюсь использовать несколько страниц этого сайта. Я пробовал различные ответы на переполнение стека относительно этого веб-сайта, и ни один из них не работал. Все страницы с веб-сайта возвращают только 403. Я пытался изменить ip и изменить...
316 просмотров

Scrapy — разделение частей селектора между двумя переменными
У меня возникают проблемы с очисткой данных с помощью скрипта паука, хотя аналогичный код работает, когда я тестирую его в оболочке scrapy. Единственная разница в том, что в моем скрипте я разделяю селектор. Вот селектор, который работает в...
65 просмотров

Xpath не возвращает ТЕКСТ из тегов ‹p› в Scrapy Shell
Ссылка: https://www.softwareadvice.com/hr/zenefits-profile Я пытаюсь очистить описание из приведенной выше ссылки. XPath кажется правильным, но он не возвращает мне значение в scrapy shell . (Пожалуйста, смотрите скриншот ниже). Я пробовал...
58 просмотров
schedule 25.04.2023

Scrapy shell - правильный селектор xpath для получения информации из таблицы?
Я пытаюсь получить правильный Xpath для извлечения информации, обведенной красным на изображении ниже: введите здесь описание изображения Я попытался скопировать xpath и вставить его в оболочку scrapy, но он не работает. У меня возникают...
26 просмотров
schedule 09.11.2022

Как читать текст и получать определенные значения строк с помощью Scrapy
У меня есть требование нажать url › http://something.com/requirements.txt Контент будет примерно таким, (response.text). From the 8th to the 12th century, Old English gradually transformed through language contact into Middle English. Middle...
19 просмотров
schedule 28.11.2023

скрап-оболочка: я вижу только открытый паук, а затем получаю тайм-аут для страниц Zalando
Когда я нахожусь в оболочке scrapy и запускаю: fetch('https://www.google.nl') Затем я получаю нормальный ответ: 2020-11-19 12:42:00 [scrapy.core.engine] INFO: Spider opened 2020-11-19 12:42:00 [scrapy.core.engine] DEBUG: Crawled (200)...
68 просмотров
schedule 23.09.2022

Scrapy не может очистить следующую страницу
Я хотел очистить информацию для следующих страниц, однако код позволяет мне очистить информацию только с первой страницы. Мой код выглядит следующим образом: # -*- coding: utf-8 -*- import scrapy from ..items import PropertyItem class...
34 просмотров
schedule 30.03.2023

scrapy href в таблице
Мне трудно извлечь href из таблиц. https://www.asantomediacao.pt/imoveis/ <table class="grid tarp tarpRow" cellpadding="0" cellspacing="0" border="0"> <colgroup> <col...
40 просмотров
schedule 05.10.2022

Защитные методы очистки паутины от паука-скрапера
Я занимаюсь парсингом в Интернете около 3 месяцев и заметил, что многие из моих пауков нуждаются в постоянном присмотре из-за того, что веб-сайты меняются. Я использую scrapy, python и crawlera для очистки своих сайтов. Например, 2 недели назад я...
29 просмотров

Источник изображения Flipkart.com меняется после очистки
Итак, я пытался очистить сайт flipcart.com исключительно в учебных целях, но столкнулся с проблемой, не понимаю почему. Я пытался очистить изображение src по этой ссылке - https://www.flipkart.com/search?q=sofa и после того, как я обнаружил в...
43 просмотров
schedule 28.01.2023