Я использую пример исходного кода из демонстрационного API Lucene 4.2.0: http://lucene.apache.org/core/4_2_0/demo/overview-summary.html
Я запускаю IndexFiles.java для создания индекса из каталога файлов rtf, pdf, doc и docx. Затем я запускаю SearcFiles.java и замечаю, что сталкиваюсь с несколькими случаями, когда мои поиски терпят неудачу, т. е. он не возвращает документ, содержащий искомое слово.
Я подозреваю, что это связано с тем, что Lucene 4.2.0 не может правильно индексировать файлы, отличные от .txt, без дополнительной настройки.
Вопрос: Может ли исходный код IndexFiles.java (Lucene 4.2.0) правильно индексировать файлы pdf, doc, docx, как написано в предоставленной ссылке? Есть ли у кого-нибудь примеры или ссылки на то, как кодировать эту функциональность?
Спасибо