Как Google использует теги HTML для улучшения поисковой системы?

Я знаю, что алгоритм поиска Google в основном основан на рейтинге страниц. Однако он также выполняет анализ и использует структуру документа H1, H2, title и другие теги HTML для улучшения результатов поиска.

Как называется этот метод "использования структуры документа для улучшения результатов поиска"?

И есть ли какие-нибудь академические работы, которые помогут мне изучить эту область?

Тот факт, что Google принимает во внимание структуру HTML, хорошо освещен в статьях по SEO, однако я не смог найти его в академических статьях.


person ahmed    schedule 20.07.2009    source источник
comment
Я предполагаю, что он в основном анализирует HTML-страницу для чтения содержимого. В Perl- search.cpan.org/dist/HTML-Parser   -  person Alec Smart    schedule 20.07.2009


Ответы (14)


Кажется, это называется "Семантическая разметка".

[...] семантическая разметка — это разметка, достаточно описательная, чтобы позволить нам и машинам, которые мы программируем, распознавать ее и принимать по ней решения. Другими словами, разметка что-то значит, когда мы можем ее идентифицировать и делать с ней полезные вещи. Таким образом, семантическая разметка становится больше, чем просто описательной. Это становится блестящим механизмом, который позволяет и людям, и машинам «понимать» одну и ту же информацию. http://www.digital-web.com/articles/writing_semantic_markup/

Более практичная статья здесь http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

person Philippe    schedule 20.07.2009
comment
Я не вижу актуальности семантической разметки для вопроса ОП, если вы также не можете показать, что это имеет какое-то отношение к поисковым системам. - person cletus; 20.07.2009
comment
@cletus: использование семантической разметки, такой как h1 для основного заголовка, позволяет поисковой системе быть более уверенным в структуре страницы, что влияет на ее рейтинг этой страницы по релевантным условиям поиска. Хотя поисковые системы умеют использовать эвристику для определения структуры страниц, которые не используют семантическую разметку, они определенно учитывают семантическую разметку, когда находят ее. Руководство Google для начинающих по поисковой оптимизации googlewebmastercentral.blogspot.com/2008/11/ включает раздел «Используйте теги заголовков надлежащим образом». - person NickFitz; 20.07.2009

SEO стало почти религией для некоторых людей, которые зациклены на мелочах. Честно говоря, я не уверен, что все эти усилия оправданы.

Мой совет? Не обращайте внимания на то, что говорят так называемые эксперты, и просто следуйте рекомендациям Google< /а>.

Возможно, вы ищете академический ответ, но, честно говоря, это не академический вопрос, выходящий за рамки самых основ работы веб-индексирования. Реальность современного алгоритма индексации и ранжирования страниц гораздо сложнее.

Вы можете ознакомиться с одним из более ранних работ по поисковым системам. Обратите внимание на имена авторов. Вы также можете прочитать заявку на патент Google 20050071741.

Помимо этих общих принципов, алгоритм поиска Google постоянно совершенствуется. на основе реальных и желаемых результатов. Точный принцип работы держится в строжайшем секрете только для того, чтобы людям было сложнее играть в систему. Большая часть «советов» или описаний того, как работает алгоритм поиска Google, являются чистыми предположениями.

Так что, если не считать заголовка и корректного HTML-кода, я не думаю, что вы найдете то, что ищете.

person cletus    schedule 20.07.2009
comment
OP ищет именно академическую работу по этой теме, а не только то, как улучшить Page Rank. - person Chris Tonkinson; 20.07.2009
comment
-1: Хотя я согласен с мнением, этот ответ не касается вопроса ОП. - person Joel; 20.07.2009
comment
Спасибо за ваш совет, но я ищу именно академическую работу по теме, подобной тому, что сказал Крис, спасибо за ваш вклад и спасибо Крису за лучшее объяснение моего вопроса. - person ahmed; 20.07.2009
comment
Согласен с автором, но как сказали Крис и Джоэл. Оба связанных документа (Презентация Google и Патент) не содержат ссылки на «семантические» или «семантические теги». - person tuk0z; 10.08.2015

Google намеренно не раскрывает слишком много информации о своем алгоритме поиска, поэтому маловероятно, что вы найдете точный ответ или научную статью, подтверждающую это. Если вы заинтересованы с точки зрения SEO, просто напишите свои страницы так, чтобы они были хороши для людей и роботам тоже.

Чтобы сделать страницу удобной для людей, вам СЛЕДУЕТ использовать такие теги, как h1, h2 и т. д., чтобы создать иерархическую структуру страницы... примерно так...

h1 "Свяжитесь с нами" ...h2 "Контактная информация" ......h3 "Номера телефонов" ......h3 "Адреса электронной почты" ...h2 "Как нас найти" ..... .h3 "На машине" ......h3 "Поездом"

Сложность с вашим вопросом заключается в том, что если вы поместите что-то в свой тег h1, надеясь, что это повысит вашу позицию в Google, но это не совпадает с другим контентом на вашей странице, вы можете выглядеть так, как будто вы рассылаете спам. Точно так же, если ваша страница состоит из слишком большого количества заголовков и недостаточно фактического содержания, вы можете выглядеть так, как будто вы рассылаете спам. Это не так просто, как добавить теги h1 и h2, и вы пойдете вверх! Вот почему вам нужно писать сайты для людей, а не для роботов.

person Fenton    schedule 28.07.2009
comment
идея блестящая, +1 за единственный правильный ответ, как говорится, разработано для людей, а не для роботов - person Suhail Mumtaz Awan; 03.12.2015

Я нашел эту бумагу:

Новое исследование использования структур HTML для улучшения поиска

однако это старая бумага 1999 года,

все еще ищет более свежие документы.

person ahmed    schedule 25.07.2009
comment
Вы искали документы, цитирующие это? Портал ACM перечисляет 2, и возможно, что Citeseer или Google Scholar могут знать больше. - person Phil Miller; 01.08.2009

Посетите http://jcmc.indiana.edu/vol12/issue3/pan.html http://www.springerlink.com/content/l22811484243r261/

Некоторое время, проведенное на scholar.google.com, может помочь вам найти то, что вы ищете.

person Amit Wadhwa    schedule 30.07.2009

Вы также можете попробовать выполнить поиск в разделе «Информатика» на arXiv: http://arxiv.org для «поисковой системы». и различные термины, предложенные другими.

Он содержит множество научных статей, все они находятся в свободном доступе... надеюсь, некоторые из них будут иметь отношение к вашим исследованиям. (Конечно, применяется оговорка о проверке содержания любой статьи.)

person Community    schedule 31.07.2009

Как сказал Клетус, следуйте рекомендациям Google.

Я провел несколько тестов и пришел к выводу, что теги title, изображения alt и h наиболее важны. Также стоит упомянуть Google AdSense. У меня было ощущение, что если вы их реализуете, рейтинг вашего сайта повысится.

person Richard    schedule 20.07.2009
comment
Как сказал Крис, я ищу именно научную работу по этой теме, а не обязательно только то, как улучшить Page Rank. Спасибо за ваш совет. - person ahmed; 20.07.2009

Я полагаю, что то, что вас интересует, называется структурным отпечатком пальцев, и его часто используют для определения сходства двух структур. В случае Google, применение веса к различным тегам и применение к секретному алгоритму, который (вероятно) использует частоты различных элементов в отпечатке пальца. Это глубоко укоренилось в теории информации — если вы ищете научные статьи по теории информации, я бы начал с "Математическая теория коммуникации" Клода Шеннона

person Robert    schedule 25.07.2009

Я бы также посоветовал взглянуть на Микроформаты и RDF. Оба используются для улучшения поиска. В основном они не зависят от поисковых систем, но есть и некоторые специфические вещи. Для ознакомления с особыми рекомендациями Google по содержанию HTML прочитайте эту ссылку.

person Ritesh M Nayak    schedule 28.07.2009

Короче; очень осторожно. В длинном:

Цитата из анатомия крупномасштабной гипертекстовой поисковой системы erb:< /а>

[...] Это дает нам ограниченный поиск по фразе, если для определенного слова не так много якорей. Мы планируем обновить способ хранения совпадений привязок, чтобы обеспечить большее разрешение в полях position и docIDhash. Мы используем размер шрифта по отношению к остальной части документа, потому что при поиске вы не хотите ранжировать идентичные документы по-разному только потому, что один из документов набран более крупным шрифтом. [...]

Это продолжается:

[...] Еще одно большое различие между сетью и традиционными хорошо контролируемыми коллекциями заключается в том, что практически нет контроля над тем, что люди могут размещать в сети. Соедините эту гибкость в публикации чего угодно с огромным влиянием поисковых систем на маршрутизацию трафика и компаний, которые преднамеренно манипулируют поисковыми системами для получения прибыли, что становится серьезной проблемой. Это проблема, которая не решалась в традиционных закрытых информационно-поисковых системах. Кроме того, интересно отметить, что усилия по метаданным в поисковых системах по большей части не увенчались успехом, поскольку любой текст на странице, не представленный пользователю напрямую, используется для манипулирования поисковыми системами. [... ]

Проблемы в системе веб-поиска решают эти проблемы более современным способом:

[...] Веб-страницы в HTML попадают в середину этого континуума структуры документов, не приближаясь ни к свободному тексту, ни к хорошо структурированным данным. Вместо этого разметка HTML предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но дает подсказки о семантической информации. Информация о макете в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые можно использовать. для пометки содержимого, но на самом деле это особенно ценный источник метаданных в ненадежных корпусах, таких как Интернет. Ценность информации о макете проистекает из того факта, что она видна пользователю [. ..]:

И добавляет:

[...] теги HTML могут быть проанализированы на предмет того, какую семантическую информацию можно вывести. В дополнение к тегам заголовков, упомянутым выше, существуют теги, управляющие начертанием шрифта (полужирный, курсив), размером и цветом. Их можно проанализировать, чтобы определить, какие слова в документе автор считает особенно важными. Одним из преимуществ HTML или любого языка разметки, который очень точно соответствует тому, как отображается контент, является то, что здесь меньше возможностей для злоупотреблений: сложно использовать разметку HTML таким образом, чтобы поисковые системы считали отмеченный текст важным. , пока пользователям это кажется неважным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет отображаться на видном месте на отображаемой веб-странице, поэтому поисковые системы могут безопасно придавать этому тексту большое значение. Однако надежность разметки HTML снижается из-за каскадных таблиц стилей, которые отделяют имена тегов от их представления. Были проведены исследования по извлечению информации из того, какой структурой обладает HTML. Например, [Chakrabarti et al. , 2001; Chakrabarti, 2001] создал DOM-дерево HTML-страницы и использовал эту информацию для повышения точности выделения тем — метода анализа на основе ссылок.

Есть ряд проблем, с которыми современная поисковая система должна бороться, например, веб-спам и черные схемы SEO.

Но даже в идеальном мире, например. после исключения плохих парней из индекса сеть по-прежнему полна беспорядка, потому что ни у кого нет идентичных структур. Есть карты, игры, видео, фотографии (flickr) и много-много пользовательского контента. Другими словами, сеть по-прежнему очень непредсказуема.

Ресурсы

person hannson    schedule 01.08.2009

Чтобы это было до боли просто. Сделайте вашу информационную архитектуру логичной. Если наиболее важные для восприятия пользователем элементы выделены заголовками и логически сгруппированы, то документ легче интерпретировать с помощью алгоритмов обработки информации. Волшебным образом пользователям будет легче интерпретировать. Помните, что алгоритмы поисковых систем были написаны людьми, пытающимися интерпретировать язык.

Основной процесс: напишите хорошо структурированный HTML, используя теги заголовков для обозначения наиболее важных элементов на странице. Используйте логические теги, основанные на структуре вашей информации. Списки для списков, заголовки для основных тем.

Укажите соответствующие теги alt и имена для любых визуальных элементов, а затем используйте простой CSS, чтобы упорядочить эти элементы.

Если сайт хорошо работает для пользователей и содержит актуальную информацию, вы не рискуете попасть в черный список спамеров, а алгоритмы поисковых систем будут благосклонны к вашей странице.

Мне очень понравилась книга Transcending CSS, в которой подробно объясняется правильно структурированный HTML.

person jkelley    schedule 01.08.2009

Я предлагаю попробовать Google Scholar как один из способов поиска научных статей.

семантический поиск

person Zac Thompson    schedule 27.07.2009

Мне показалось интересным, что — без мета-ключевых слов и описания — в таком сценарии:

<p>Some introduction</p>
<h1>headline 1</h1>
<p>text for section one</p>

На странице результатов поиска всегда отображается «текст для первого раздела».

person bb.    schedule 31.07.2009

Теперь также можно использовать новый тег CANONICAL, от Google, нажмите ЗДЕСЬ

person Etienne    schedule 09.09.2009