Обычно я против размещения промежуточных серверов в общедоступной сети, но если это лучшее решение для вашего рабочего процесса, вот несколько вещей, которые вы можете учесть:
Минимальный подход
- Создайте новый домен для промежуточного сервера (например, example-stage.com)
- Добавьте robots.txt =>
Disallow: /
- Подтвердите домен в Инструментах Google и Bing для веб-мастеров
Минимальный подход - это самые основы, чтобы вы не прострелили себе ногу из-за того, что повсюду дублированный контент. Регистрируя отдельный домен, пользователь получает четкое разделение на то, что является этапом, а что нет. Это также немного чище, когда вам нужно перемещать среду, но это более оперативно. CNAME также будут работать, но не забудьте зарегистрировать каждый CNAME в Google и Bing Webmaster Tools. Таким образом, вы можете использовать инструмент для удаления домена, если вам нужно.
Рекомендуемый подход
- Добавить аутентификацию (HTTP или иначе) перед запросами
- Ответьте соответствующим кодом ответа, если он не разрешен (например, 401 Unauthorized)
- Все остальное в базовом подходе выше
Добавляя файл robots.txt, он предотвращает доступ поисковых систем к содержанию и его индексацию. Однако это не означает, что они не будут индексировать URL-адрес. Если поисковая система знает о данном URL-адресе, она может добавить его в индекс результатов поиска. Иногда вы увидите их в результатах поиска. Заголовок, как правило, представляет собой URL-адрес без описания. Чтобы этого не произошло, нужно указать поисковым системам не показывать контент или URL-адреса. Добавление аутентификации на фронт и отсутствие ответа с кодом состояния 200 OK является сильным сигналом для движков не добавлять эти URL-адреса в свой индекс. По моему опыту, я никогда не видел кодовой страницы ответа 401 в индексе поисковой системы.
Предпочтительный подход
- Поместите промежуточные сайты за IP-таблицы (например, доступные только из заданного диапазона IP-адресов)
- Добавьте на каждую страницу команды meta или x-robots со значением NOINDEX, NOFOLLOW.
- Все остальное в рекомендуемом подходе
Помещение промежуточных сайтов за IP-фильтром гарантирует, что только ваши клиенты смогут получить доступ к сайту. Это может быть проблемой, если они хотят получить к нему доступ с других компьютеров, а иногда и головной болью при обслуживании, но это лучший подход, если вы не хотите индексировать свою промежуточную среду. Предупреждение: вы должны убедиться, что все остальные запросы (например, поисковые системы и неклиенты) ничего не обслуживают. Они должны получить ответ о тайм-ауте и никогда не выдавать 200 OK. Предоставление другой информации может быть ошибочно принято за маскировку, которая вам не нужна.
Кроме того, чтобы быть в большей безопасности, я бы также добавил команду meta robots или x-robots-header на каждую страницу в NOINDEX, NOFOLLOW на случай, если IP-таблицы выйдут из строя из-за неправильной конфигурации или если аутентификация когда-либо не удалась ... это редко, но бывает когда есть люди, трогающие конфигурации по другим причинам. Как и в случае с файлом robots.txt, вы действительно можете выстрелить себе в ногу с помощью этих команд роботов на уровне страницы, если они когда-либо будут запущены в производство. Поэтому просто убедитесь, что ваши среды разработки / подготовки находятся в четко разделенной конфигурации. В противном случае выталкивание NOINDEX, NOFOLLOW или Disallow: /
было бы катастрофой для вашего производственного сайта.
person
eywu
schedule
31.08.2012