Вопросы по теме 'web-mining'

Веб-майнинг, парсинг или сканирование? Какой инструмент/библиотеку следует использовать?
Я хочу просканировать и сохранить некоторые веб-страницы в формате HTML. Скажем, зайдите на сотни популярных веб-сайтов и просто сохраните их главные страницы и страницы «О нас». Я изучил множество вопросов, но не нашел ответа на этот вопрос ни...
4330 просмотров

Любая лучшая библиотека предварительной обработки или реализация в python?
Мне нужно предварительно обработать некоторые текстовые документы, чтобы я мог применять методы классификации, такие как fcm и т. д., и другие методы тематического моделирования, такие как скрытое распределение Дирихле и т. д. Чтобы немного...
1822 просмотров

Rcrawler - Как сканировать сайты, защищенные учетной записью/паролем?
Я пытаюсь сканировать и очищать таблицы веб-сайта. У меня есть учетная запись на веб-сайте, и я обнаружил, что Rcrawl может помочь мне с получением частей таблицы на основе определенных ключевых слов и т. д. Проблема в том, что на странице GitHub нет...
915 просмотров

Как получить текст и значение href в теге привязки с помощью scrapy, xpath, python
У меня есть такой HTML-файл: <div ckass="jokes-nav"> <ul> <li><a href="http://link_1">Link 1</a></li> <li><a href="http://link_2">Link 2</a></li> </ul> </div>...
405 просмотров
schedule 05.08.2022

Защитные методы очистки паутины от паука-скрапера
Я занимаюсь парсингом в Интернете около 3 месяцев и заметил, что многие из моих пауков нуждаются в постоянном присмотре из-за того, что веб-сайты меняются. Я использую scrapy, python и crawlera для очистки своих сайтов. Например, 2 недели назад я...
29 просмотров