Предложения как документы в Nutch

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов обхода. Причина в том, что Solr при индексации видит каждое предложение как документ.

В результате мне нужно иметь возможность выполнить поиск, скажем, «одно слово» и получить список всех предложений, содержащих «один» и/или «слово».

Я новичок в Nutch, поэтому некоторые указатели были бы действительно полезны...

Должен ли я смотреть в файлы конфигурации Nutch?
Нужно ли менять исходный код Nutch?
Или я могу написать отдельное приложение, которое сможет редактировать результаты сканирования после завершения сканирования Nutch?

Michael 30.10.2011 источник

Ответы (1)

arrow_upward
1
arrow_downward

Да, вы можете проверить Nutch для своей задачи.

1) конфигурационные файлы сами по себе не помогут. см. пункты выше.

2) вам нужно написать свой собственный плагин Parser, который подключается к фазе синтаксического анализа после сканирования, разбивает вашу HTML-страницу на предложения и возвращает N результатов с одной страницы. Это довольно странно, поскольку обычно одна страница — это один результат. Ознакомьтесь с FeedParser, чтобы узнать, как вернуть несколько результатов с одной страницы.

3) в принципе, вы можете перебирать страницы, извлеченные nutch, получать текст, разбивать их на предложения и использовать API SOLR для индексации ваших предложений, как если бы они были документами. это может быть даже работа по уменьшению карты довольно легко.

В качестве общей ссылки я предлагаю вам взглянуть на эту статью для разделения вашего текста на предложения:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html

marcorossi 03.11.2011

Предложения как документы в Nutch

Ответы (1)

Вопросы по теме