Вопросы по теме 'solr-cell'

Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов
Можете ли вы использовать ExtractingRequestHandler и Tika с любым из сжатых форматов файлов (zip, tar, gz и т. Д.) Для извлечения содержимого для индексации? Я отправляю solr файл archived.tar с помощью curl. curl "...
1885 просмотров

Индексирование PDF с номерами страниц с помощью Solr
Я индексирую PDF-файлы с помощью Solr, используя ExtractingRequestHandler. Я хотел бы отображать номер страницы вместе с обращениями в документе, например. "термин foo был найден в bar.pdf на страницах 2, 3 и 5." Можно ли включать номера...
2725 просмотров

Индексирование PDF с помощью Solr
Может ли кто-нибудь указать мне учебник. Мой основной опыт работы с Solr — это индексация CSV-файлов. Но я не могу найти простых инструкций/учебников, чтобы сказать мне, что мне нужно сделать для индексации PDF-файлов. Я видел это:...
43025 просмотров

Текстовые индексаторы (для python) со встроенной поддержкой файлов doc, docx и pdf
В настоящее время я ищу текстовый индексатор для моей программы на Python. Я включил Solr, проект Lucene, и Whoosh, родной для Python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr постоянно указывал мне на пакет Tika,...
1278 просмотров

Solr ExtractingRequestHandler извлечение текста в формате pdf
У меня проблема с извлечением текста в формате PDF из Solr. Solr использует Apache Tika для извлечения текста из файла PDF, а tika использует для этого PDFBox. Когда я отправляю свой PDF-файл в Solr, он успешно извлекает текст, но текст полностью...
1568 просмотров
schedule 10.03.2022

NoClassDefFoundError MimeTypeException с извлечением PDF
Я получаю исключение при попытке использовать обновление/извлечение файлов PDF Моя настройка: Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38 Я могу перейти к solr/admin OK Я поместил все библиотеки contrib/extract и...
2757 просмотров
schedule 23.09.2022

Отображение метаданных Tika Solr игнорирует заголовок документа
У меня есть следующий файл конфигурации для solr: <requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults"> <!--...
1398 просмотров
schedule 17.07.2022

Может ли Solr сохранить форматирование HTML-документов, которые были переданы ему в результате?
Как сохранить исходное форматирование HTML-документа в результатах, предоставленных Solr? Я пытаюсь предоставить функцию поиска на веб-сайте одной из моих компаний, на котором есть миллионы документов, и все они не имеют одинакового форматирования,...
762 просмотров
schedule 13.05.2023

Solr ExtractingRequestHandler не является org.apache.solr.request.SolrRequestHandler
Я пытаюсь использовать post.jar для индексации папки с файлами PDF. Я добавил обработчик запросов, но при запуске получаю сообщение об ошибке. Кажется, что это может быть конфликт версий или загрузка повторяющегося класса, и поэтому он не...
575 просмотров
schedule 06.05.2022

Есть ли способ интегрировать spring-data-solr с Tika?
Есть ли способ через конфигурацию использовать spring-data-solr с Tika? В противном случае, есть ли альтернатива ContentStreamUpdateRequest+addfile solrj для spring-data-solr? В настоящее время я использую Solrj + Tika следующим образом:...
473 просмотров