Вопросы по теме 'solr-cell'
Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов
Можете ли вы использовать ExtractingRequestHandler и Tika с любым из сжатых форматов файлов (zip, tar, gz и т. Д.) Для извлечения содержимого для индексации?
Я отправляю solr файл archived.tar с помощью curl. curl "...
1885 просмотров
schedule
26.12.2022
Индексирование PDF с номерами страниц с помощью Solr
Я индексирую PDF-файлы с помощью Solr, используя ExtractingRequestHandler. Я хотел бы отображать номер страницы вместе с обращениями в документе, например. "термин foo был найден в bar.pdf на страницах 2, 3 и 5."
Можно ли включать номера...
2725 просмотров
schedule
12.07.2022
Индексирование PDF с помощью Solr
Может ли кто-нибудь указать мне учебник.
Мой основной опыт работы с Solr — это индексация CSV-файлов. Но я не могу найти простых инструкций/учебников, чтобы сказать мне, что мне нужно сделать для индексации PDF-файлов.
Я видел это:...
43025 просмотров
schedule
01.04.2022
Текстовые индексаторы (для python) со встроенной поддержкой файлов doc, docx и pdf
В настоящее время я ищу текстовый индексатор для моей программы на Python. Я включил Solr, проект Lucene, и Whoosh, родной для Python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr постоянно указывал мне на пакет Tika,...
1278 просмотров
schedule
30.06.2023
Solr ExtractingRequestHandler извлечение текста в формате pdf
У меня проблема с извлечением текста в формате PDF из Solr. Solr использует Apache Tika для извлечения текста из файла PDF, а tika использует для этого PDFBox. Когда я отправляю свой PDF-файл в Solr, он успешно извлекает текст, но текст полностью...
1568 просмотров
schedule
10.03.2022
NoClassDefFoundError MimeTypeException с извлечением PDF
Я получаю исключение при попытке использовать обновление/извлечение файлов PDF
Моя настройка: Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38
Я могу перейти к solr/admin OK
Я поместил все библиотеки contrib/extract и...
2757 просмотров
schedule
23.09.2022
Отображение метаданных Tika Solr игнорирует заголовок документа
У меня есть следующий файл конфигурации для solr:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<!--...
1398 просмотров
schedule
17.07.2022
Может ли Solr сохранить форматирование HTML-документов, которые были переданы ему в результате?
Как сохранить исходное форматирование HTML-документа в результатах, предоставленных Solr?
Я пытаюсь предоставить функцию поиска на веб-сайте одной из моих компаний, на котором есть миллионы документов, и все они не имеют одинакового форматирования,...
762 просмотров
schedule
13.05.2023
Solr ExtractingRequestHandler не является org.apache.solr.request.SolrRequestHandler
Я пытаюсь использовать post.jar для индексации папки с файлами PDF. Я добавил обработчик запросов, но при запуске получаю сообщение об ошибке.
Кажется, что это может быть конфликт версий или загрузка повторяющегося класса, и поэтому он не...
575 просмотров
schedule
06.05.2022
Есть ли способ интегрировать spring-data-solr с Tika?
Есть ли способ через конфигурацию использовать spring-data-solr с Tika? В противном случае, есть ли альтернатива ContentStreamUpdateRequest+addfile solrj для spring-data-solr?
В настоящее время я использую Solrj + Tika следующим образом:...
473 просмотров
schedule
05.11.2022