Можете ли вы использовать ExtractingRequestHandler и Tika с любым из сжатых форматов файлов (zip, tar, gz и т. Д.) Для извлечения содержимого для индексации?
Я отправляю solr файл archived.tar с помощью curl. curl "http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true "-H 'Content-type: application / octet-stream' --data-binary" @ / home / archived.tar "Результат, который я получаю когда я запрашиваю документ, имена файлов внутри архива индексируются как "body_texts", но содержимое этих файлов не извлекается и не включается. Я не ожидал такого поведения. Ссылка: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example. Когда я отправляю 1 из фактических документов внутри архива с помощью той же команды curl, извлеченный контент сохраняется в поле body_texts. Я пропустил шаг для сжатых файлов?
Я добавил все зависимости извлечения, как указано матом в http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell, и я могу успешно извлекать данные из документов MS Word, PDF, HTML.
Я использую следующие версии библиотек. Solr 1.40, Solr Cell 1.4.1, с Tika Core 0.4
Учитывая все, что я прочитал, эта версия Tika должна поддерживать извлечение данных из всех файлов в сжатом файле. Любая помощь или предложения будут оценены.