Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов обхода. Причина в том, что Solr при индексации видит каждое предложение как документ.
В результате мне нужно иметь возможность выполнить поиск, скажем, «одно слово» и получить список всех предложений, содержащих «один» и/или «слово».
Я новичок в Nutch, поэтому некоторые указатели были бы действительно полезны...
- Должен ли я смотреть в файлы конфигурации Nutch?
- Нужно ли менять исходный код Nutch?
- Или я могу написать отдельное приложение, которое сможет редактировать результаты сканирования после завершения сканирования Nutch?