RCrawler: способ ограничить количество страниц, которые собирает RCrawler? (не глубина обхода)

Я использую RCrawler для обхода примерно 300 веб-сайтов. Размер веб-сайтов довольно разнообразен: некоторые из них маленькие (десяток или около того страниц), а другие большие (1000 страниц на домен). Сканирование последнего занимает очень много времени, и — для моих целей исследования — добавленная стоимость большего количества страниц, когда у меня уже есть несколько сотен, уменьшается.

Итак: есть ли способ остановить сканирование, если будет собрано x страниц?

Я знаю, что могу ограничить сканирование с помощью MaxDepth, но даже при MaxDepth=2 это все еще проблема. MaxDepth=1 не подходит для моего исследования. Кроме того, я бы предпочел, чтобы MaxDepth оставался высоким, чтобы небольшие веб-сайты сканировались полностью.

Большое спасибо!


person mayayaya    schedule 10.12.2019    source источник


Ответы (1)


Как насчет реализации пользовательской функции для параметра FUNPageFilter функции Rcrawler? Пользовательская функция проверяет количество файлов в DIR и возвращает FALSE, если файлов слишком много.

person Dan T.    schedule 25.01.2020