поиск solr со всеми извлекаемыми документами

Я использовал nutch 1.4 для обхода веб-сайтов и проиндексировал данные в solr 3.5. это было успешно. Я использовал Luke для проверки данных индекса и обнаружил, что было получено 1678 документов. но когда я ввел строку запроса (всего несколько ключевых слов) в интерфейсе solr для поиска, были получены все 1678 документов. это странно, так как большинство извлекаемых веб-страниц вообще не содержали этих ключевых слов.

Любая идея для этой проблемы?

Спасибо.

гром

solr nutch

thunder 26.03.2012 источник

comment

Это может быть что угодно. Можете ли вы добавить некоторые детали? Например, ваш «schema.xml» и запрос, который вы пытаетесь выполнить. Спасибо - javanna 26.03.2012

comment

то, что я просканировал, — это веб-сайт медицинской библиотеки. он содержит в основном медицинские термины и термины. Например, я ввел строку запроса «Клиническая аллергия и клиническая иммунология», solr возвращает все 1678 документов. Спасибо! - thunder 26.03.2012

comment

кстати, я использовал файл schema.xml, напрямую скопированный из Nutch 1.4, который находится в папке nutch_home/runtime/local/conf. Спасибо! - thunder 26.03.2012

Ответы (1)

arrow_upward
0
arrow_downward

Хм, у людей обычно возникает проблема типа «отсутствующий документ» при поиске с помощью Solr. У вас обратная проблема :)

Вы должны быть в состоянии понять, почему это происходит сразу после того, как вы откроете свой индекс с Люком. Поле поиска по умолчанию со схемой Nutch — это Content, поэтому, когда вы вводите в Solr только поисковый запрос, это поле будет искаться. Изучите его содержимое, используя Люка.

Вы, конечно же, знаете об этих ценных ресурсах:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html

Marko Bonaci 27.03.2012

поиск solr со всеми извлекаемыми документами

Ответы (1)

Вопросы по теме