Вопросы по теме 'scrapy-shell'
Scrapy response.xpath ничего не возвращает для запроса
Я использую оболочку scrapy для извлечения некоторых текстовых данных. Вот команды, которые я дал в оболочке scrapy:
>>> scrapy shell...
681 просмотров
schedule
11.06.2023
Не удается получить ссылку Image src с помощью XPath
Я использую Scrapy для сканирования ссылки src на изображение продукта на этом сайте:
http://eshop.tesco.com.my/en-GB/Promotion/List?SortBy=Default
По некоторым причинам Xpath не захватывает src-ссылки на изображения продуктов. Я попытался...
559 просмотров
schedule
02.06.2022
Как извлечь текст с помощью Xpath в Scrapy?
Хорошо, кажется, я перепробовал все и просто не могу понять, что здесь происходит. Прямая ссылка на сайт, который я пытаюсь получить, —...
535 просмотров
schedule
15.03.2023
python scrapy 302 (я хочу вернуть исходную страницу)
Я собираюсь очистить https://movie.douban.com/subject/1292052/ эта страница
но URL перенаправляет на http://m.douban.com/movie/subject/1292052 как мне вернуться на первую страницу и использовать способ синтаксического анализа первой страницы...
106 просмотров
schedule
19.03.2023
Как извлечь новости Google с определенным ключевым словом с помощью scrapy?
Я новичок в scrapy, пытаюсь извлечь новости Google из указанной ниже ссылки:...
444 просмотров
schedule
04.07.2022
Scrapy не может загружать изображения с URL-адреса
Я использую scrapy для загрузки изображений, но он не работает. Я получаю URL-адрес в нужной папке, но не изображения.
Вот мои items.py:
class Brand(scrapy.Item):
name = scrapy.Field()
url = scrapy.Field()
brand_image =...
406 просмотров
schedule
11.06.2023
Scrapy FormRequest не может обрабатывать сложные диктовки как данные формы
Я пытаюсь предоставить данные формы объекту scrapy.FormRequest. Formdata представляет собой dict следующей структуры:
{
"param1": [
{
"paramA": "valueA",
"paramB": "valueB"
}
]
}
через эквивалент следующего кода,...
370 просмотров
schedule
31.12.2022
Веб-парсинг: пустые / нет данных / пустые записи при запуске паука, правильные записи в оболочке scrapy
Сканируя веб-сайт с порно, я делаю паука, который ползает по страницам в поисках новейших видео, очищая метаданные для каждого из 32 видео на странице.
Далее мой код для паука:
class NaughtySpider(scrapy.Spider):
name = "naughtyspider"...
269 просмотров
schedule
19.06.2023
не удалось очистить https://angel.co/
Я пытаюсь использовать несколько страниц этого сайта.
Я пробовал различные ответы на переполнение стека относительно этого веб-сайта, и ни один из них не работал. Все страницы с веб-сайта возвращают только 403. Я пытался изменить ip и изменить...
316 просмотров
schedule
28.10.2022
Scrapy — разделение частей селектора между двумя переменными
У меня возникают проблемы с очисткой данных с помощью скрипта паука, хотя аналогичный код работает, когда я тестирую его в оболочке scrapy. Единственная разница в том, что в моем скрипте я разделяю селектор.
Вот селектор, который работает в...
65 просмотров
schedule
19.02.2023
Xpath не возвращает ТЕКСТ из тегов ‹p› в Scrapy Shell
Ссылка: https://www.softwareadvice.com/hr/zenefits-profile
Я пытаюсь очистить описание из приведенной выше ссылки. XPath кажется правильным, но он не возвращает мне значение в scrapy shell . (Пожалуйста, смотрите скриншот ниже). Я пробовал...
58 просмотров
schedule
25.04.2023
Scrapy shell - правильный селектор xpath для получения информации из таблицы?
Я пытаюсь получить правильный Xpath для извлечения информации, обведенной красным на изображении ниже:
введите здесь описание изображения
Я попытался скопировать xpath и вставить его в оболочку scrapy, но он не работает. У меня возникают...
26 просмотров
schedule
09.11.2022
Как читать текст и получать определенные значения строк с помощью Scrapy
У меня есть требование нажать url › http://something.com/requirements.txt Контент будет примерно таким, (response.text).
From the 8th to the 12th century, Old English gradually transformed through language contact into Middle English. Middle...
19 просмотров
schedule
28.11.2023
скрап-оболочка: я вижу только открытый паук, а затем получаю тайм-аут для страниц Zalando
Когда я нахожусь в оболочке scrapy и запускаю:
fetch('https://www.google.nl')
Затем я получаю нормальный ответ:
2020-11-19 12:42:00 [scrapy.core.engine] INFO: Spider opened
2020-11-19 12:42:00 [scrapy.core.engine] DEBUG: Crawled (200)...
68 просмотров
schedule
23.09.2022
Scrapy не может очистить следующую страницу
Я хотел очистить информацию для следующих страниц, однако код позволяет мне очистить информацию только с первой страницы.
Мой код выглядит следующим образом:
# -*- coding: utf-8 -*-
import scrapy
from ..items import PropertyItem
class...
34 просмотров
schedule
30.03.2023
scrapy href в таблице
Мне трудно извлечь href из таблиц.
https://www.asantomediacao.pt/imoveis/
<table class="grid tarp tarpRow" cellpadding="0" cellspacing="0" border="0">
<colgroup>
<col...
40 просмотров
schedule
05.10.2022
Защитные методы очистки паутины от паука-скрапера
Я занимаюсь парсингом в Интернете около 3 месяцев и заметил, что многие из моих пауков нуждаются в постоянном присмотре из-за того, что веб-сайты меняются. Я использую scrapy, python и crawlera для очистки своих сайтов. Например, 2 недели назад я...
29 просмотров
schedule
02.06.2022
Источник изображения Flipkart.com меняется после очистки
Итак, я пытался очистить сайт flipcart.com исключительно в учебных целях, но столкнулся с проблемой, не понимаю почему. Я пытался очистить изображение src по этой ссылке - https://www.flipkart.com/search?q=sofa и после того, как я обнаружил в...
43 просмотров
schedule
28.01.2023