Я разрабатываю сканер с использованием драгоценного камня анемона (Ruby-1.8.7 и Rails 3.1.1). Как исключить из сканирования/скачивания веб-страницы с расширениями pdf, doc, zip и т.д.
Пропуск веб-страниц с расширением pdf, zip при сканировании в Anemone
Ответы (1)
person
schedule
Вы должны привязать свое регулярное выражение к концу, иначе URL-адрес, подобный
http://example.org/how-to-generate-pdf.html
, будет пропущен. Также точка должна быть экранирована. Как насчет ext = %w(pdf doc etc ...)
и anemone.skip_links_like /\.#{ext.join('|')}$/
- person Fabio; 02.12.2011
Спасибо, Фабио, я сейчас внесу эти изменения.
- person sunnyrjuneja; 02.12.2011
Фабио, могу я задать тебе вопрос. Если вы хотите создать регулярное выражение для пропуска URL-адреса, заканчивающегося цифрами, например, somewebsite. com/this/a/test?page=21095925, как бы вы изменили шаблон?
- person sunnyrjuneja; 02.12.2011
Это зависит от ваших реальных потребностей. Для URL-адреса, который заканчивается цифрами, вы можете использовать
/\d+$/
, но это довольно общий и может соответствовать многим вещам, вы можете ограничить, обеспечив наличие ?
во входных данных, как в /\?.*\d+$/
, это менее общее, но вы можете продолжить с вашими полными требованиями. Вы можете найти все модификаторы и шаблоны здесь и хороший тестер здесь
- person Fabio; 02.12.2011
Я действительно пробовал это регулярное выражение, но это не сработало. Вот именно этот URL я пытаюсь избежать HIDDEN.com/about_us/ а>
- person sunnyrjuneja; 02.12.2011
Я только что опубликовал свой вопрос: stackoverflow.com/questions/8349599/
- person sunnyrjuneja; 02.12.2011
Спасибо, парни. @Sunny - добавьте :skip_query_strings =› true в параметры анемона, и это решит вашу проблему.
- person Bhushan Lodha; 02.12.2011