Что важнее в SEO: robots.txt или sitemap.xml?

У меня есть сайт WordPress, на котором я хочу запретить поисковым системам сканировать весь каталог. Я знаю, что могу сделать это в файле robots.txt (в корне сайта), добавив строку «Запретить» для этого каталога. Однако...

На том же сайте я использую плагин «XML Sitemap» для автоматического создания и отправки файла sitemap.xml при изменении любого содержимого на сайте. К сожалению, нет способа автоматически запретить плагину отображать страницы в каталоге, которые я не хочу сканировать. Каждый раз, когда я добавляю новую страницу в этот каталог, мне приходится вручную исключать эту страницу из карты сайта (плагин позволяет это делать).

Мой вопрос: что имеет приоритет... файл robots.txt или файл sitemap.xml? Другими словами, если страница указана в файле sitemap.xml, будет ли она сканироваться поисковыми системами, если ее родительский каталог запрещен в robots.txt?


person lamarant    schedule 14.04.2011    source источник
comment
Эти файлы служат другой цели: robots.txt используется для явного запрета или разрешения роботам поисковых систем (которые ему подчиняются) просматривать определенные области вашего сайта. Файл sitemap.xml используется, чтобы дать паукам легкий путь ко всем страницам вашего сайта, а также может содержать веса для важности страницы, которые поисковые системы могут затем учитывать. Таким образом, если вы отклоняете страницу в robots.txt, но она указана в sitemap.xml, robots.txt останавливает сканирование и индексирование этой страницы любыми роботами поисковых систем, которые ему подчиняются (все крупные).   -  person Darryl at NetHosted    schedule 14.04.2011
comment
Здесь это не по теме; это не вопрос программирования. Принадлежит веб-мастерам. Голосование за переезд.   -  person Ken White    schedule 14.04.2011
comment
› если страница указана в файле sitemap.xml, будут ли поисковые системы сканировать ее, если ее родительский каталог запрещен в robots.txt? - страница не будет просканирована, так как гуглбот заблокирован через файл robots.txt. - вы увидите ошибку в инструментах для веб-мастеров, говорящую вам, что вы отправили URL-адрес, который заблокирован через robots.txt, но - поскольку сканирование является необязательным (!!) для индексации, страницы могут (и это большая вероятность) показать в поисковой выдаче Google я более подробно объяснил последний аспект здесь: stackoverflow.com/questions/5537612/pages-not-indexed-by-google/   -  person Franz Enzenhofer    schedule 16.04.2011