Короче; очень осторожно. В длинном:
Цитата из анатомия крупномасштабной гипертекстовой поисковой системы erb:< /а>
[...] Это дает нам ограниченный поиск по фразе, если для определенного слова не так много якорей. Мы планируем обновить способ хранения совпадений привязок, чтобы обеспечить большее разрешение в полях position и docIDhash. Мы используем размер шрифта по отношению к остальной части документа, потому что при поиске вы не хотите ранжировать идентичные документы по-разному только потому, что один из документов набран более крупным шрифтом. [...]
Это продолжается:
[...] Еще одно большое различие между сетью и традиционными хорошо контролируемыми коллекциями заключается в том, что практически нет контроля над тем, что люди могут размещать в сети. Соедините эту гибкость в публикации чего угодно с огромным влиянием поисковых систем на маршрутизацию трафика и компаний, которые преднамеренно манипулируют поисковыми системами для получения прибыли, что становится серьезной проблемой. Это проблема, которая не решалась в традиционных закрытых информационно-поисковых системах. Кроме того, интересно отметить, что усилия по метаданным в поисковых системах по большей части не увенчались успехом, поскольку любой текст на странице, не представленный пользователю напрямую, используется для манипулирования поисковыми системами. [... ]
Проблемы в системе веб-поиска решают эти проблемы более современным способом:
[...] Веб-страницы в HTML попадают в середину этого континуума структуры документов, не приближаясь ни к свободному тексту, ни к хорошо структурированным данным. Вместо этого разметка HTML предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но дает подсказки о семантической информации. Информация о макете в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые можно использовать. для пометки содержимого, но на самом деле это особенно ценный источник метаданных в ненадежных корпусах, таких как Интернет. Ценность информации о макете проистекает из того факта, что она видна пользователю [. ..]:
И добавляет:
[...] теги HTML могут быть проанализированы на предмет того, какую семантическую информацию можно вывести. В дополнение к тегам заголовков, упомянутым выше, существуют теги, управляющие начертанием шрифта (полужирный, курсив), размером и цветом. Их можно проанализировать, чтобы определить, какие слова в документе автор считает особенно важными. Одним из преимуществ HTML или любого языка разметки, который очень точно соответствует тому, как отображается контент, является то, что здесь меньше возможностей для злоупотреблений: сложно использовать разметку HTML таким образом, чтобы поисковые системы считали отмеченный текст важным. , пока пользователям это кажется неважным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет отображаться на видном месте на отображаемой веб-странице, поэтому поисковые системы могут безопасно придавать этому тексту большое значение. Однако надежность разметки HTML снижается из-за каскадных таблиц стилей, которые отделяют имена тегов от их представления. Были проведены исследования по извлечению информации из того, какой структурой обладает HTML. Например, [Chakrabarti et al. , 2001; Chakrabarti, 2001] создал DOM-дерево HTML-страницы и использовал эту информацию для повышения точности выделения тем — метода анализа на основе ссылок.
Есть ряд проблем, с которыми современная поисковая система должна бороться, например, веб-спам и черные схемы SEO.
Но даже в идеальном мире, например. после исключения плохих парней из индекса сеть по-прежнему полна беспорядка, потому что ни у кого нет идентичных структур. Есть карты, игры, видео, фотографии (flickr) и много-много пользовательского контента. Другими словами, сеть по-прежнему очень непредсказуема.
Ресурсы
person
hannson
schedule
01.08.2009