Текстовые индексаторы (для python) со встроенной поддержкой файлов doc, docx и pdf

В настоящее время я ищу текстовый индексатор для моей программы на Python. Я включил Solr, проект Lucene, и Whoosh, родной для Python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr постоянно указывал мне на пакет Tika, версия которого интегрирована с Solr.

В результатах не упоминается в определенных терминах, имеет ли какой-либо пакет встроенную поддержку трех форматов. Поддерживают ли их Whoosh и Solr? Какой другой индексатор с открытым исходным кодом изначально читает эти форматы?


person Jesvin Jose    schedule 16.07.2011    source источник


Ответы (1)


С Solr 1.4 или более поздней версии вы можете загружать и индексировать файлы Word и PDF на лету; см.: http://wiki.apache.org/solr/ExtractingRequestHandler

ExtractingRequestHandler от Solr использует Tika, чтобы пользователи могли загружать двоичные файлы в Solr, чтобы Solr извлекал из них текст, а затем индексировал его.

person miku    schedule 16.07.2011
comment
Я обнаружил, что extractOnly=true полезен, так как я храню свой текст в sqldb, используя Solr только для индексации/поиска. - person Jegschemesch; 08.09.2011