С помощью solr-4.9 (последняя версия на данный момент) извлечение данных из богатых документов, таких как PDF-файлы, электронные таблицы (семейство xls, xlxs), презентации (ppt, ppts), документация (doc, txt и т. д.), стало довольно простым. Образцы кода, представленные в загруженном архиве с здесь, содержат базовый проект шаблона solr, который поможет вам быстро приступить к работе.
Необходимые изменения конфигурации следующие:
Измените solrConfig.xml
, чтобы включить следующие строки:
<lib dir="<path_to_extraction_libs>" regex=".*\.jar" />
<lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />
создайте обработчик запроса следующим образом:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults" />
</requestHandler>
2.Добавьте в свой проект необходимые jar-файлы из solrExample.
3. Определите схему в соответствии с вашими потребностями и запустите запрос, например:
curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "[email protected]"
перейдите на портал GUI и запросите просмотр проиндексированного содержимого.
Дайте мне знать, если у вас возникнут какие-либо проблемы.
person
Raj Saxena
schedule
19.08.2014