Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов

Можете ли вы использовать ExtractingRequestHandler и Tika с любым из сжатых форматов файлов (zip, tar, gz и т. Д.) Для извлечения содержимого для индексации?

Я отправляю solr файл archived.tar с помощью curl. curl "http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true "-H 'Content-type: application / octet-stream' --data-binary" @ / home / archived.tar "Результат, который я получаю когда я запрашиваю документ, имена файлов внутри архива индексируются как "body_texts", но содержимое этих файлов не извлекается и не включается. Я не ожидал такого поведения. Ссылка: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example. Когда я отправляю 1 из фактических документов внутри архива с помощью той же команды curl, извлеченный контент сохраняется в поле body_texts. Я пропустил шаг для сжатых файлов?

Я добавил все зависимости извлечения, как указано матом в http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell, и я могу успешно извлекать данные из документов MS Word, PDF, HTML.

Я использую следующие версии библиотек. Solr 1.40, Solr Cell 1.4.1, с Tika Core 0.4

Учитывая все, что я прочитал, эта версия Tika должна поддерживать извлечение данных из всех файлов в сжатом файле. Любая помощь или предложения будут оценены.


person Richie Rich    schedule 25.10.2010    source источник


Ответы (1)


Краткий ответ: Solr Cell 1.4.1 и Tika Core 0.6.

Длинный ответ: после многих головных болей я смог заставить это работать. Я отвечу на него как для людей, использующих solr напрямую, так и для людей, использующих solr с sunspot из библиотеки Ruby (что было моей проблемой).

Вот что я сделал: я использовал этот плагин https://github.com/tomasc/sunspot_cell для расширения солнечное пятно и наделите его функцией прикрепления. (Игнорируйте этот шаг, если вы не используете рубин / солнечное пятно)

v1.4.1 работает с отдельными файлами, но не со сжатыми файлами, поэтому мне пришлось немного изучить. Я загрузил кодовую базу v1.4.1 с http://lucene.apache.org/solr/ и взял dist / apache-solr-cell-1.4.1.jar, тогда мне пришлось вытащить библиотеки Tika из ветки 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ < / а>.

Вы можете скачать каждый по отдельности или использовать svn для проверки ветки,

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Или просто проверьте папку библиотеки:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
person Zach Moazeni    schedule 10.03.2011