Здесь действительно нет хорошего решения. Вы правы, поскольку подозреваете, что Python, вероятно, лучший способ начать, потому что он невероятно сильно поддерживает регулярные выражения.
Чтобы реализовать что-то подобное, помогут глубокие знания SEO (поисковая оптимизация), поскольку эффективная оптимизация веб-страницы для поисковых систем говорит вам о том, как ведут себя поисковые системы. Я бы начал с такого сайта, как SEOMoz.
Что касается идентификации страницы «о нас», у вас есть только 2 варианта:
а) Для каждой страницы получите ссылку на страницу о нас и передайте ее своему сканеру.
б) Проанализируйте все ссылки страницы на наличие определенных ключевых слов, таких как "о нас", "о нас", "узнать больше" и т. д.
при использовании варианта b будьте осторожны, так как вы можете застрять в бесконечном цикле, поскольку веб-сайт будет ссылаться на одну и ту же страницу много раз, особенно если ссылка находится в верхнем или нижнем колонтитуле, страница может ссылаться даже на себя. Чтобы избежать этого, вам нужно создать список посещенных ссылок и следить за тем, чтобы они не посещались повторно.
Наконец, я бы порекомендовал, чтобы ваш поисковый робот соблюдал инструкции в файле robot.txt
, и, вероятно, было бы неплохо не переходить по ссылкам, отмеченным rel="nofollow"
, поскольку они в основном используются для внешних ссылок. Опять же, узнайте это и многое другое, читая о SEO.
С уважением,
person
Ali
schedule
11.10.2011