Пропуск веб-страниц с расширением pdf, zip при сканировании в Anemone

Я разрабатываю сканер с использованием драгоценного камня анемона (Ruby-1.8.7 и Rails 3.1.1). Как исключить из сканирования/скачивания веб-страницы с расширениями pdf, doc, zip и т.д.

Bhushan Lodha 01.12.2011 источник

Ответы (1)

arrow_upward

arrow_downward

comment

Вы должны привязать свое регулярное выражение к концу, иначе URL-адрес, подобный http://example.org/how-to-generate-pdf.html, будет пропущен. Также точка должна быть экранирована. Как насчет ext = %w(pdf doc etc ...) и anemone.skip_links_like /\.#{ext.join('|')}$/ - Fabio; 02.12.2011

comment

Спасибо, Фабио, я сейчас внесу эти изменения. - sunnyrjuneja; 02.12.2011

comment

Фабио, могу я задать тебе вопрос. Если вы хотите создать регулярное выражение для пропуска URL-адреса, заканчивающегося цифрами, например, somewebsite. com/this/a/test?page=21095925, как бы вы изменили шаблон? - sunnyrjuneja; 02.12.2011

comment

Это зависит от ваших реальных потребностей. Для URL-адреса, который заканчивается цифрами, вы можете использовать /\d+$/, но это довольно общий и может соответствовать многим вещам, вы можете ограничить, обеспечив наличие ? во входных данных, как в /\?.*\d+$/, это менее общее, но вы можете продолжить с вашими полными требованиями. Вы можете найти все модификаторы и шаблоны здесь и хороший тестер здесь - Fabio; 02.12.2011

comment

Я действительно пробовал это регулярное выражение, но это не сработало. Вот именно этот URL я пытаюсь избежать HIDDEN.com/about_us/ - sunnyrjuneja; 02.12.2011

comment

Я только что опубликовал свой вопрос: stackoverflow.com/questions/8349599/ - sunnyrjuneja; 02.12.2011

comment

Спасибо, парни. @Sunny - добавьте :skip_query_strings =› true в параметры анемона, и это решит вашу проблему. - Bhushan Lodha; 02.12.2011

Пропуск веб-страниц с расширением pdf, zip при сканировании в Anemone

Ответы (1)

Вопросы по теме