поиск solr со всеми извлекаемыми документами

Я использовал nutch 1.4 для обхода веб-сайтов и проиндексировал данные в solr 3.5. это было успешно. Я использовал Luke для проверки данных индекса и обнаружил, что было получено 1678 документов. но когда я ввел строку запроса (всего несколько ключевых слов) в интерфейсе solr для поиска, были получены все 1678 документов. это странно, так как большинство извлекаемых веб-страниц вообще не содержали этих ключевых слов.

Любая идея для этой проблемы?

Спасибо.

гром


person thunder    schedule 26.03.2012    source источник
comment
Это может быть что угодно. Можете ли вы добавить некоторые детали? Например, ваш «schema.xml» и запрос, который вы пытаетесь выполнить. Спасибо   -  person javanna    schedule 26.03.2012
comment
то, что я просканировал, — это веб-сайт медицинской библиотеки. он содержит в основном медицинские термины и термины. Например, я ввел строку запроса «Клиническая аллергия и клиническая иммунология», solr возвращает все 1678 документов. Спасибо!   -  person thunder    schedule 26.03.2012
comment
кстати, я использовал файл schema.xml, напрямую скопированный из Nutch 1.4, который находится в папке nutch_home/runtime/local/conf. Спасибо!   -  person thunder    schedule 26.03.2012


Ответы (1)


Хм, у людей обычно возникает проблема типа «отсутствующий документ» при поиске с помощью Solr. У вас обратная проблема :)

Вы должны быть в состоянии понять, почему это происходит сразу после того, как вы откроете свой индекс с Люком. Поле поиска по умолчанию со схемой Nutch — это Content, поэтому, когда вы вводите в Solr только поисковый запрос, это поле будет искаться. Изучите его содержимое, используя Люка.

Вы, конечно же, знаете об этих ценных ресурсах:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html

person Marko Bonaci    schedule 27.03.2012