Дублированный контент в Google. SEO для Drupal

У меня есть сайт Drupal, который работает. Сайт не оптимизирован для SEO должным образом, и в Google создается много дублированного контента из-за / category, / taxonomy и т. Д.

Состав такой:

/ var / www / appname / Содержит специально созданное приложение / var / www / appname / drup. Содержит мою установку drupal.

Я просмотрел результаты сайта в поисковом сайте Google: appname.com и обнаружил, что существует много дублированного контента из-за / content, / taxonomy, / node и т. Д.

В моем ROBOTS.txt .. в / var / www / appname уже есть следующее, но я удивлен, что страницы все еще индексируются. Пожалуйста, порекомендуйте.

User-agent: *
Crawl-delay: 10

Allow: /
Allow: /drup/

# Directories
Disallow: /drup/includes/
Disallow: /drup/misc/
Disallow: /drup/modules/
Disallow: /drup/profiles/
Disallow: /drup/scripts/
Disallow: /drup/themes/
# Files
Disallow: /drup/CHANGELOG.txt
Disallow: /drup/cron.php
Disallow: /drup/INSTALL.mysql.txt
Disallow: /drup/INSTALL.pgsql.txt
Disallow: /drup/install.php
Disallow: /drup/INSTALL.txt
Disallow: /drup/LICENSE.txt
Disallow: /drup/MAINTAINERS.txt
Disallow: /drup/update.php
Disallow: /drup/UPGRADE.txt
Disallow: /drup/xmlrpc.php
# Paths (clean URLs)
Disallow: /drup/admin/
Disallow: /drup/comment/reply/
Disallow: /drup/contact/
Disallow: /drup/logout/
Disallow: /drup/node/add/
Disallow: /drup/search/
Disallow: /drup/user/register/
Disallow: /drup/user/password/
Disallow: /drup/user/login/
# Paths (no clean URLs)
Disallow: /drup/?q=admin/
Disallow: /drup/?q=comment/reply/
Disallow: /drup/?q=contact/
Disallow: /drup/?q=logout/
Disallow: /drup/?q=node/add/
Disallow: /drup/?q=search/
Disallow: /drup/?q=user/password/
Disallow: /drup/?q=user/register/
Disallow: /drup/?q=user/log 

person Santosh    schedule 30.05.2011    source источник


Ответы (4)


Вам просто нужна XML-карта сайта, которая сообщает Google, где находятся все страницы, вместо того, чтобы позволить Google сканировать их самостоятельно.

Фактически, когда Stackoverflow находился в стадии бета-тестирования, они пытались позволить сканеру творить чудеса. Однако на высокодинамичных сайтах таким способом практически невозможно получить адекватные результаты.

Таким образом, с помощью XML-карты сайта вы сообщаете Google, где находится каждая страница, каков ее приоритет и как часто она изменяется.

person Brian Webster    schedule 30.05.2011
comment
И в Drupal есть действительно полезный модуль карты сайта для этого: drupal.org/project/xmlsitemap - person berkes; 31.05.2011

Есть несколько модулей, которые заботятся о SEO и дублировании контента. Сначала я бы посоветовал установить и просмотреть http://drupal.org/project/seo_checklist для дублированного контента вы можете проверить http://drupal.org/project/globalredirect

В любом случае, / taxonomy и / content - это просто списки, которые вместо того, чтобы запрещать, вы можете захотеть переопределить их пути каким-либо настраиваемым контентом и позволить сканерам знать, на что они смотрят.

person Josep Valls    schedule 30.05.2011

Вы можете запретить каталог, в котором отображается дублированный контент. Как вы объяснили, узел / content, / taxonomy, / показывает дублированный контент.

Добавьте следующий код в раздел «Каталоги» файла robots.txt, чтобы ограничить доступ поисковых систем к этим каталогам.

Disallow: / drup / content / Disallow: / drup / taxonomy / Disallow: / drup / node /

person StephenLembert    schedule 30.05.2011

Есть ли у вас возможность подтвердить право собственности на сайт с помощью Инструментов Google для веб-мастеров по адресу:

http://www.google.com/webmasters/tools

Если да, я бы порекомендовал сделать это, а затем попробовать "Просмотреть как Googlebot" в категории "Диагностика" для этого сайта. Если ваш robots.txt работает должным образом, в вашем поле «Статус получения» будет указано «Отклонено файлом robots.txt».

Проиндексированные страницы могут некоторое время зависать и отображаться в результатах поиска Google после того, как вы изменили файл robots.txt. Но Fetch As Googlebot дает вам индикацию в реальном времени о том, что происходит, когда Googlebot стучит ...

Если URL-адреса, которые вы не хотите индексировать, извлекаются без проблем, вам нужно сосредоточиться на проблемах с robots.txt ... где он находится, синтаксисе, перечисленных путях и т. Д. Я всегда предлагаю людям получить его вручную в браузере (в корне их веб-сайта), чтобы дважды проверить на предмет очевидных глупостей.

person gcbound    schedule 24.04.2012