Пропуск веб-страниц с расширением pdf, zip при сканировании в Anemone

Я разрабатываю сканер с использованием драгоценного камня анемона (Ruby-1.8.7 и Rails 3.1.1). Как исключить из сканирования/скачивания веб-страницы с расширениями pdf, doc, zip и т.д.


person Bhushan Lodha    schedule 01.12.2011    source источник


Ответы (1)


person    schedule
comment
Вы должны привязать свое регулярное выражение к концу, иначе URL-адрес, подобный http://example.org/how-to-generate-pdf.html, будет пропущен. Также точка должна быть экранирована. Как насчет ext = %w(pdf doc etc ...) и anemone.skip_links_like /\.#{ext.join('|')}$/ - person Fabio; 02.12.2011
comment
Спасибо, Фабио, я сейчас внесу эти изменения. - person sunnyrjuneja; 02.12.2011
comment
Фабио, могу я задать тебе вопрос. Если вы хотите создать регулярное выражение для пропуска URL-адреса, заканчивающегося цифрами, например, somewebsite. com/this/a/test?page=21095925, как бы вы изменили шаблон? - person sunnyrjuneja; 02.12.2011
comment
Это зависит от ваших реальных потребностей. Для URL-адреса, который заканчивается цифрами, вы можете использовать /\d+$/, но это довольно общий и может соответствовать многим вещам, вы можете ограничить, обеспечив наличие ? во входных данных, как в /\?.*\d+$/, это менее общее, но вы можете продолжить с вашими полными требованиями. Вы можете найти все модификаторы и шаблоны здесь и хороший тестер здесь - person Fabio; 02.12.2011
comment
Я действительно пробовал это регулярное выражение, но это не сработало. Вот именно этот URL я пытаюсь избежать HIDDEN.com/about_us/ - person sunnyrjuneja; 02.12.2011
comment
Спасибо, парни. @Sunny - добавьте :skip_query_strings =› true в параметры анемона, и это решит вашу проблему. - person Bhushan Lodha; 02.12.2011