как предотвратить индексирование постановки в поисковых системах

Я бы хотел, чтобы мои промежуточные веб-сайты не индексировались поисковыми системами (в первую очередь Google).

Я слышал, что Wordpress хорош в этом, но я хотел бы быть независимым от технологий.

Достаточно ли файла robots.txt? Мы хотели бы сохранить анонимный доступ, чтобы клиент мог видеть свой веб-сайт без необходимости входа в систему.

Должен ли я добавлять nofollow на каждую страницу?


person toutpt    schedule 30.08.2012    source источник


Ответы (5)


Обычно я против размещения промежуточных серверов в общедоступной сети, но если это лучшее решение для вашего рабочего процесса, вот несколько вещей, которые вы можете учесть:

Минимальный подход

  • Создайте новый домен для промежуточного сервера (например, example-stage.com)
  • Добавьте robots.txt => Disallow: /
  • Подтвердите домен в Инструментах Google и Bing для веб-мастеров

Минимальный подход - это самые основы, чтобы вы не прострелили себе ногу из-за того, что повсюду дублированный контент. Регистрируя отдельный домен, пользователь получает четкое разделение на то, что является этапом, а что нет. Это также немного чище, когда вам нужно перемещать среду, но это более оперативно. CNAME также будут работать, но не забудьте зарегистрировать каждый CNAME в Google и Bing Webmaster Tools. Таким образом, вы можете использовать инструмент для удаления домена, если вам нужно.

Рекомендуемый подход

  • Добавить аутентификацию (HTTP или иначе) перед запросами
  • Ответьте соответствующим кодом ответа, если он не разрешен (например, 401 Unauthorized)
  • Все остальное в базовом подходе выше

Добавляя файл robots.txt, он предотвращает доступ поисковых систем к содержанию и его индексацию. Однако это не означает, что они не будут индексировать URL-адрес. Если поисковая система знает о данном URL-адресе, она может добавить его в индекс результатов поиска. Иногда вы увидите их в результатах поиска. Заголовок, как правило, представляет собой URL-адрес без описания. Чтобы этого не произошло, нужно указать поисковым системам не показывать контент или URL-адреса. Добавление аутентификации на фронт и отсутствие ответа с кодом состояния 200 OK является сильным сигналом для движков не добавлять эти URL-адреса в свой индекс. По моему опыту, я никогда не видел кодовой страницы ответа 401 в индексе поисковой системы.

Предпочтительный подход

  • Поместите промежуточные сайты за IP-таблицы (например, доступные только из заданного диапазона IP-адресов)
  • Добавьте на каждую страницу команды meta или x-robots со значением NOINDEX, NOFOLLOW.
  • Все остальное в рекомендуемом подходе

Помещение промежуточных сайтов за IP-фильтром гарантирует, что только ваши клиенты смогут получить доступ к сайту. Это может быть проблемой, если они хотят получить к нему доступ с других компьютеров, а иногда и головной болью при обслуживании, но это лучший подход, если вы не хотите индексировать свою промежуточную среду. Предупреждение: вы должны убедиться, что все остальные запросы (например, поисковые системы и неклиенты) ничего не обслуживают. Они должны получить ответ о тайм-ауте и никогда не выдавать 200 OK. Предоставление другой информации может быть ошибочно принято за маскировку, которая вам не нужна.

Кроме того, чтобы быть в большей безопасности, я бы также добавил команду meta robots или x-robots-header на каждую страницу в NOINDEX, NOFOLLOW на случай, если IP-таблицы выйдут из строя из-за неправильной конфигурации или если аутентификация когда-либо не удалась ... это редко, но бывает когда есть люди, трогающие конфигурации по другим причинам. Как и в случае с файлом robots.txt, вы действительно можете выстрелить себе в ногу с помощью этих команд роботов на уровне страницы, если они когда-либо будут запущены в производство. Поэтому просто убедитесь, что ваши среды разработки / подготовки находятся в четко разделенной конфигурации. В противном случае выталкивание NOINDEX, NOFOLLOW или Disallow: / было бы катастрофой для вашего производственного сайта.

person eywu    schedule 31.08.2012
comment
Добавьте на каждую страницу команды meta или x-robots со значением NOINDEX, NOFOLLOW кажется хорошим вариантом с помощью Add robots.txt = ›Disallow: /. Остальная часть вашего ответа для меня слишком ограничена: мы хотели бы сохранить анонимный доступ. Постараюсь посмотреть, что получится. Спасибо за Ваш ответ. - person toutpt; 04.09.2012
comment
Если это одна и та же кодовая база, не приведет ли изменение файла robots.txt к игнорированию какого-либо сервера, а не только к постановке? - person Andrew Mortimer; 02.04.2013
comment
@AndrewMortimer ... Предполагается, что у вас есть файлы конфигурации, которые определяют различные файлы settings / robots.txt для разработки, подготовки и производства. Таким образом, файл конфигурации будет прочитан сервером / средой ... если среда является промежуточной средой, она будет использовать промежуточную конфигурацию. - person eywu; 09.04.2013

Вы можете отключить этот сервер на всей территории, добавив приведенную ниже настройку глобально в apache conf, или те же параметры можно использовать в vhost для отключения его только для определенного vhost.

Заголовочный набор X-Robots-Tag "noindex, nofollow"

Как только это будет сделано, вы можете протестировать его, проверив возвращенные заголовки apache.

curl -I staging.mywebsite.com HTTP/1.1 302 Found Date: Sat, 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Location: /pages/ X-Robots-Tag: noindex, nofollow Content-Type: text/html; charset=UTF-8
person nisamudeen97    schedule 26.11.2016

Я добавил этот код на свой сайт (на php):

if( $_SERVER['HTTP_HOST'] == 'test.ate.io' ) {
    header("X-Robots-Tag: noindex, nofollow", true);    
}

Таким образом, даже если мой файл конфигурации из постановки случайно будет отправлен на рабочий сервер, проблем не возникнет.

person ShadeTreeDeveloper    schedule 03.08.2013

TL; DR; Создайте файл robots.txt в корневом веб-каталоге. Этот файл должен содержать одну строку:

Disallow: /

Этого достаточно, чтобы роботы Google и Bing не индексировали ваш сайт и не появлялись в результатах поиска.

person Leo Galleguillos    schedule 27.10.2015

Добавьте в раздел своей страницы следующий метатег:

<meta name="robots" content="noindex">

Чтобы запретить только Google индексировать страницу:

<meta name="googlebot" content="noindex">
person Shemeemsha R A    schedule 13.10.2020