Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов

Можете ли вы использовать ExtractingRequestHandler и Tika с любым из сжатых форматов файлов (zip, tar, gz и т. Д.) Для извлечения содержимого для индексации?

Я отправляю solr файл archived.tar с помощью curl. curl "http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true "-H 'Content-type: application / octet-stream' --data-binary" @ / home / archived.tar "Результат, который я получаю когда я запрашиваю документ, имена файлов внутри архива индексируются как "body_texts", но содержимое этих файлов не извлекается и не включается. Я не ожидал такого поведения. Ссылка: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example. Когда я отправляю 1 из фактических документов внутри архива с помощью той же команды curl, извлеченный контент сохраняется в поле body_texts. Я пропустил шаг для сжатых файлов?

Я добавил все зависимости извлечения, как указано матом в http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell, и я могу успешно извлекать данные из документов MS Word, PDF, HTML.

Я использую следующие версии библиотек. Solr 1.40, Solr Cell 1.4.1, с Tika Core 0.4

Учитывая все, что я прочитал, эта версия Tika должна поддерживать извлечение данных из всех файлов в сжатом файле. Любая помощь или предложения будут оценены.

Richie Rich 25.10.2010 источник

Ответы (1)

arrow_upward
1
arrow_downward

Краткий ответ: Solr Cell 1.4.1 и Tika Core 0.6.

Длинный ответ: после многих головных болей я смог заставить это работать. Я отвечу на него как для людей, использующих solr напрямую, так и для людей, использующих solr с sunspot из библиотеки Ruby (что было моей проблемой).

Вот что я сделал: я использовал этот плагин https://github.com/tomasc/sunspot_cell для расширения солнечное пятно и наделите его функцией прикрепления. (Игнорируйте этот шаг, если вы не используете рубин / солнечное пятно)

v1.4.1 работает с отдельными файлами, но не со сжатыми файлами, поэтому мне пришлось немного изучить. Я загрузил кодовую базу v1.4.1 с http://lucene.apache.org/solr/ и взял dist / apache-solr-cell-1.4.1.jar, тогда мне пришлось вытащить библиотеки Tika из ветки 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ < / а>.

Вы можете скачать каждый по отдельности или использовать svn для проверки ветки,

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Или просто проверьте папку библиотеки:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

Zach Moazeni 10.03.2011

Вопросы по теме

Как правильно переопределить недоступный HTML-контент с помощью CSS?
Emacs тормозит и создает 0-байтовые файлы в рабочем каталоге
Скрытое переполнение элементов с переменной высотой?
отправить электронное письмо в качестве параметра в URL-адресе в ошибке Rails
Ханойские башни с использованием списков Prolog
Хранение подписей в кодировке base64 в базе данных
Редактирование CSV-файла — удаление всей строки похожих значений на основе условия VIA Powershell
Как начать новый подсчет, когда значение категориальной переменной изменилось в R
Настройте параметры прокси-сервера HTTP в инструменте командной строки Android
Разбор кода JavaScript в модуле Node.js
Почему в С++ возврат указателя частной переменной разных объектов приводит к ошибке сегментации?
Рассчитать минимальное, максимальное и среднее значение в столбце данных
Как применить несколько фильтров в таблице данных угловых материалов?
Конфигурация конкретного узла в JBoss Clustering
Подчеркивания не считываются компонентом сценария в службах интеграции Microsoft
как настроить struts2 с помощью tomcat и apache с mod_jk?
Как использовать REST API RSA Archer для получения отчета?
JMH: не учитывать время внутреннего метода
Время жизни временного объекта, связанного с константной ссылкой (цепочка методов)
фильтр сканирования по подстроке