SEO, заказ и дублирование контента

Я веду специализированный новостной сайт и пытаюсь добавить к нему немного SEO-соуса. Одна из самых важных вещей, которые я слышу, это избегать дублирования контента. Я рассмотрел все основы, но я застрял с упорядочением контента.

Например, архив сайта можно упорядочить по дате, просмотрам и рейтингу. Поскольку у нас не так много новостей, страница архива за определенный день обычно содержит только пару элементов, поэтому все следующие URL-адреса имеют одинаковое содержание, хотя и в разном порядке:

  • /новости/архив/16.05.2010/
  • /новости/архив/16.05.2010/?o=просмотры
  • /новости/архив/16.05.2010/?o=рейтинг

Наказывают ли поисковые машины этот конкретный вид дублирования контента? И если да, то как лучше всего избежать наказания? <link rel="canonical" />? Сообщить Google & Co., чтобы они учитывали параметр o? Отметить ссылки для заказа с помощью nofollow? Разрешить индексацию архивных сайтов, упорядоченных по дате, только через robots.txt (не уверен, что это вообще возможно)?


person Benjamin Wohlwend    schedule 16.05.2010    source источник


Ответы (3)


Если у вас есть динамический URL в стандартном формате, например foo?key1=value&key2=value2, мы рекомендуем оставить URL без изменений, и Google определит, какие параметры можно удалить.

http://googlewebmastercentral.blogspot.com/2008/09/dynamic-urls-vs-static-urls.html

По сути, Google не заботится об этом. Googlebot достаточно умен, чтобы решить эту проблему за вас.

Я всегда использую канонический тег, мне он кажется чище.

person Ben    schedule 17.05.2010
comment
По моему опыту, googlebot недостаточно умен, чтобы понять это самостоятельно. Я должен дать ему подсказки, такие как rel = canonical, или рассказать о параметре в инструментах для веб-мастеров, как предполагают другие ответы. - person Stephen Ostermiller; 25.02.2013

Я не знаю, влияет ли это на ранжирование в поисковых системах или нет (вероятно, влияет). Вы можете указать в Google Webmaster, какие параметры строки запроса следует игнорировать (см. Конфигурация сайта/Настройки). Вы также можете добавить это в robots.txt:

User-agent: *
/news/archive/*/*/*/?*o=

Это блокирует сканер, даже если у вас есть другие параметры запроса, как в

/news/archive/2010/05/16/?direction=asc&o=date
person Artefacto    schedule 16.05.2010

Перейдите в Инструменты Google для веб-мастеров > Конфигурация > Параметры URL и настройте параметр "o" как тот, который сортирует контент.

person Timo Huovinen    schedule 25.02.2013