Я использую RCrawler для обхода примерно 300 веб-сайтов. Размер веб-сайтов довольно разнообразен: некоторые из них маленькие (десяток или около того страниц), а другие большие (1000 страниц на домен). Сканирование последнего занимает очень много времени, и — для моих целей исследования — добавленная стоимость большего количества страниц, когда у меня уже есть несколько сотен, уменьшается.
Итак: есть ли способ остановить сканирование, если будет собрано x страниц?
Я знаю, что могу ограничить сканирование с помощью MaxDepth, но даже при MaxDepth=2 это все еще проблема. MaxDepth=1 не подходит для моего исследования. Кроме того, я бы предпочел, чтобы MaxDepth оставался высоким, чтобы небольшие веб-сайты сканировались полностью.
Большое спасибо!