Индексирование PDF с номерами страниц с помощью Solr

Я индексирую PDF-файлы с помощью Solr, используя ExtractingRequestHandler. Я хотел бы отображать номер страницы вместе с обращениями в документе, например. "термин foo был найден в bar.pdf на страницах 2, 3 и 5."

Можно ли включать номера страниц в результат запроса, как это?


person Daniel Hepper    schedule 04.11.2010    source источник


Ответы (1)


Это потребует некоторых усилий по разработке, но вы можете добиться этого, проиндексировав каждую страницу каждого документа как отдельный документ Solr, а затем используя сворачивание полей для группировки различных обращений к страницам для каждого документа.

Обратите внимание, что для этого вам понадобится nightly, свертывание полей не реализовано ни в одной из выпущенных в настоящее время версий Solr.

Также обратите внимание: свертывание полей реализовано в версии Solr 3.3. В следующей большой версии (Solr 4.0) ожидается больше обновлений.

person Karl Johansson    schedule 04.11.2010
comment
На данный момент, может быть, есть новые решения этой проблемы? - person zygimantus; 19.01.2017
comment
@zygimantus Я проверил несколько билетов SOLR на JIRA, которым было 10 лет. Можно с уверенностью сказать, что нет. Предлагаемый способ описан в этом ответе. Возможны и другие способы, но это займет больше времени/сложнее, так как вам придется настраивать сам Solr. - person Howie; 30.01.2018