Вопросы по теме 'web-mining'
Веб-майнинг, парсинг или сканирование? Какой инструмент/библиотеку следует использовать?
Я хочу просканировать и сохранить некоторые веб-страницы в формате HTML. Скажем, зайдите на сотни популярных веб-сайтов и просто сохраните их главные страницы и страницы «О нас».
Я изучил множество вопросов, но не нашел ответа на этот вопрос ни...
4330 просмотров
schedule
24.10.2022
Любая лучшая библиотека предварительной обработки или реализация в python?
Мне нужно предварительно обработать некоторые текстовые документы, чтобы я мог применять методы классификации, такие как fcm и т. д., и другие методы тематического моделирования, такие как скрытое распределение Дирихле и т. д.
Чтобы немного...
1822 просмотров
schedule
18.07.2023
Rcrawler - Как сканировать сайты, защищенные учетной записью/паролем?
Я пытаюсь сканировать и очищать таблицы веб-сайта. У меня есть учетная запись на веб-сайте, и я обнаружил, что Rcrawl может помочь мне с получением частей таблицы на основе определенных ключевых слов и т. д. Проблема в том, что на странице GitHub нет...
915 просмотров
schedule
19.11.2022
Как получить текст и значение href в теге привязки с помощью scrapy, xpath, python
У меня есть такой HTML-файл:
<div ckass="jokes-nav">
<ul>
<li><a href="http://link_1">Link 1</a></li>
<li><a href="http://link_2">Link 2</a></li>
</ul>
</div>...
405 просмотров
schedule
05.08.2022
Защитные методы очистки паутины от паука-скрапера
Я занимаюсь парсингом в Интернете около 3 месяцев и заметил, что многие из моих пауков нуждаются в постоянном присмотре из-за того, что веб-сайты меняются. Я использую scrapy, python и crawlera для очистки своих сайтов. Например, 2 недели назад я...
29 просмотров
schedule
02.06.2022