В настоящее время я ищу текстовый индексатор для моей программы на Python. Я включил Solr, проект Lucene, и Whoosh, родной для Python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr постоянно указывал мне на пакет Tika, версия которого интегрирована с Solr.
В результатах не упоминается в определенных терминах, имеет ли какой-либо пакет встроенную поддержку трех форматов. Поддерживают ли их Whoosh и Solr? Какой другой индексатор с открытым исходным кодом изначально читает эти форматы?