Текстовые индексаторы (для python) со встроенной поддержкой файлов doc, docx и pdf

В настоящее время я ищу текстовый индексатор для моей программы на Python. Я включил Solr, проект Lucene, и Whoosh, родной для Python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr постоянно указывал мне на пакет Tika, версия которого интегрирована с Solr.

В результатах не упоминается в определенных терминах, имеет ли какой-либо пакет встроенную поддержку трех форматов. Поддерживают ли их Whoosh и Solr? Какой другой индексатор с открытым исходным кодом изначально читает эти форматы?

Jesvin Jose 16.07.2011 источник

Ответы (1)

arrow_upward
3
arrow_downward

С Solr 1.4 или более поздней версии вы можете загружать и индексировать файлы Word и PDF на лету; см.: http://wiki.apache.org/solr/ExtractingRequestHandler

ExtractingRequestHandler от Solr использует Tika, чтобы пользователи могли загружать двоичные файлы в Solr, чтобы Solr извлекал из них текст, а затем индексировал его.

miku 16.07.2011

comment

Я обнаружил, что extractOnly=true полезен, так как я храню свой текст в sqldb, используя Solr только для индексации/поиска. - Jegschemesch; 08.09.2011

Текстовые индексаторы (для python) со встроенной поддержкой файлов doc, docx и pdf

Ответы (1)

Вопросы по теме