после нескольких месяцев исчезновения сайта из результатов поиска во всех основных поисковых системах я наконец выяснил возможную причину.
Я использовал WebBug для исследования заголовка сервера. Посмотрите разницу, если запрос HEAD или GET.
Отправленные данные HEAD:
HEAD / HTTP/1.1
Host: www.attu.it
Connection: close
Accept: */*
User-Agent: WebBug/5.0
HEAD Полученные данные:
HTTP/1.1 403 Forbidden
Date: Tue, 10 Aug 2010 23:01:00 GMT
Server: Apache/2.2
Connection: close
Content-Type: text/html; charset=iso-8859-1
ПОЛУЧИТЬ отправленные данные:
GET / HTTP/1.1
Host: www.attu.it
Connection: close
Accept: */*
User-Agent: WebBug/5.0
GET Полученные данные:
HTTP/1.1 200 OK
Date: Tue, 10 Aug 2010 23:06:15 GMT
Server: Apache/2.2
Last-Modified: Fri, 08 Jan 2010 08:58:01 GMT
ETag: "671f91b-2d2-47ca362815840"
Accept-Ranges: bytes
Content-Length: 722
Connection: close
Content-Type: text/html
// HTML code here
Теперь браузеры по умолчанию отправляют запрос GET (по крайней мере, так говорит firebug). Возможно ли, что поисковые роботы вместо этого отправляют запрос HEAD? Если да, то почему только этот сервер отвечает 403, а другие серверы с других сайтов, которые я обслуживаю, нет?
Если это важно, единственная строка, присутствующая в .htaccess, это (если мой клиент не изменил ее, поскольку они не хотят давать мне доступ к своему серверу)
AddType text/x-component .htc
ОБНОВЛЕНИЕ
Спасибо @Ryk. FireBug и Fiddler отправляют запросы GET, которые получают 200 (или 300) ответов. Как и ожидалось. Так что я предполагаю, что это либо плохие настройки сервера (хотя это странно, поскольку хостинг принадлежит крупной компании с миллионами клиентов), либо что-то они поместили в .htaccess. Им придется позволить мне просмотреть их аккаунт.
Вторая часть моего вопроса заключалась в том, может ли это быть причиной того, что веб-сайт не отображается ни в одной поисковой системе (site:www.attu.it не дает результатов). Любая мысль?
ОБНОВЛЕНИЕ 2
После некоторой возни выяснилось, что в корневом каталоге был файл .htaccess, блокирующий роботов phpMyAdmin, из-за которого любой запрос от роботов возвращался с ошибкой 403 Forbidden.