RCrawler: способ ограничить количество страниц, которые собирает RCrawler? (не глубина обхода)

Я использую RCrawler для обхода примерно 300 веб-сайтов. Размер веб-сайтов довольно разнообразен: некоторые из них маленькие (десяток или около того страниц), а другие большие (1000 страниц на домен). Сканирование последнего занимает очень много времени, и — для моих целей исследования — добавленная стоимость большего количества страниц, когда у меня уже есть несколько сотен, уменьшается.

Итак: есть ли способ остановить сканирование, если будет собрано x страниц?

Я знаю, что могу ограничить сканирование с помощью MaxDepth, но даже при MaxDepth=2 это все еще проблема. MaxDepth=1 не подходит для моего исследования. Кроме того, я бы предпочел, чтобы MaxDepth оставался высоким, чтобы небольшие веб-сайты сканировались полностью.

Большое спасибо!

r web-scraping rcrawler

mayayaya 10.12.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Как насчет реализации пользовательской функции для параметра FUNPageFilter функции Rcrawler? Пользовательская функция проверяет количество файлов в DIR и возвращает FALSE, если файлов слишком много.

Dan T. 25.01.2020

RCrawler: способ ограничить количество страниц, которые собирает RCrawler? (не глубина обхода)

Ответы (1)

Вопросы по теме