Предложения как документы в Nutch

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов обхода. Причина в том, что Solr при индексации видит каждое предложение как документ.

В результате мне нужно иметь возможность выполнить поиск, скажем, «одно слово» и получить список всех предложений, содержащих «один» и/или «слово».

Я новичок в Nutch, поэтому некоторые указатели были бы действительно полезны...

  1. Должен ли я смотреть в файлы конфигурации Nutch?
  2. Нужно ли менять исходный код Nutch?
  3. Или я могу написать отдельное приложение, которое сможет редактировать результаты сканирования после завершения сканирования Nutch?

person Michael    schedule 30.10.2011    source источник


Ответы (1)


Да, вы можете проверить Nutch для своей задачи.

1) конфигурационные файлы сами по себе не помогут. см. пункты выше.

2) вам нужно написать свой собственный плагин Parser, который подключается к фазе синтаксического анализа после сканирования, разбивает вашу HTML-страницу на предложения и возвращает N результатов с одной страницы. Это довольно странно, поскольку обычно одна страница — это один результат. Ознакомьтесь с FeedParser, чтобы узнать, как вернуть несколько результатов с одной страницы.

3) в принципе, вы можете перебирать страницы, извлеченные nutch, получать текст, разбивать их на предложения и использовать API SOLR для индексации ваших предложений, как если бы они были документами. это может быть даже работа по уменьшению карты довольно легко.

В качестве общей ссылки я предлагаю вам взглянуть на эту статью для разделения вашего текста на предложения:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html

person marcorossi    schedule 03.11.2011