Вы можете использовать Robots.txt, чтобы попытаться исключить ботов: Стандарт исключения роботов
Некоторые выдержки не говорят о том, что ссылка когда-либо может потерпеть неудачу.
Стандарт исключения роботов, также известный как протокол исключения роботов или просто robots.txt, представляет собой стандарт, используемый веб-сайтами для связи с поисковыми роботами и другими веб-роботами. Стандарт определяет, как информировать веб-робота о том, какие области веб-сайта не должны обрабатываться или сканироваться. Роботы часто используются поисковыми системами для категоризации веб-сайтов. Не все роботы соответствуют стандарту; сборщики электронной почты, спам-боты, вредоносные программы и роботы, которые сканируют уязвимости в системе безопасности, могут даже начинать с тех частей веб-сайта, куда им было приказано не входить. Этот стандарт отличается от Sitemaps, стандарта включения роботов для веб-сайтов, но может использоваться вместе с ним.
О стандарте
Когда владелец сайта хочет дать инструкции веб-роботам, он помещает текстовый файл с именем robots.txt в корень иерархии веб-сайта. (например, https://www.example.com/robots.txt). Этот текстовый файл содержит инструкции в определенном формате (см. примеры ниже). Роботы, которые решили следовать инструкциям, пытаются получить этот файл и прочитать инструкции, прежде чем получать любой другой файл с веб-сайта. Если этот файл не существует, веб-роботы предполагают, что владелец веб-сайта не хочет предоставлять никаких конкретных инструкций, и сканируют весь сайт.
Файл robots.txt на веб-сайте будет функционировать как запрос на то, чтобы указанные роботы игнорировали указанные файлы или каталоги при сканировании сайта. Это может быть, например, из-за предпочтения конфиденциальности результатов поисковой системы или убеждения, что содержимое выбранных каталогов может вводить в заблуждение или не иметь отношения к категоризации сайта в целом, или из-за желания, чтобы приложение работает только с определенными данными. Ссылки на страницы, указанные в файле robots.txt, по-прежнему могут отображаться в результатах поиска, если на них ведут ссылки со страницы, которая просканирована.
Несколько простых примеров
В этом примере всем роботам сообщается, что они могут просматривать все файлы, поскольку подстановочный знак * обозначает всех роботов, а директива Disallow не имеет значения, то есть ни одна страница не запрещена.
User-agent: * Disallow: Тот же результат может быть достигнут с пустым или отсутствующим файлом robots.txt.
Этот пример говорит всем роботам держаться подальше от веб-сайта:
User-agent: * Disallow: / Этот пример говорит всем роботам не заходить в три каталога:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Этот пример говорит всем роботам держаться подальше от одного конкретного файла:
User-agent: * Disallow: /directory/file.html Обратите внимание, что все остальные файлы в указанном каталоге будут обработаны.
person
JGlass
schedule
20.10.2018