Может ли Solr сохранить форматирование HTML-документов, которые были переданы ему в результате?

Как сохранить исходное форматирование HTML-документа в результатах, предоставленных Solr?

Я пытаюсь предоставить функцию поиска на веб-сайте одной из моих компаний, на котором есть миллионы документов, и все они не имеют одинакового форматирования, поэтому сложно форматировать каждый документ по отдельности.

Я использую ночные сборки Solr 4.1 на сайте apache со встроенной поддержкой solr-cell и tika. . т.е. мне не нужно их отдельно настраивать.

Сохраняет ли solr-cell или tika это форматирование где-нибудь?

Если он не сохраняет форматирование, мне нужно будет извлечь каждый документ из физического местоположения файла, используя поле resourcename solr, и применить выделение и другие готовые функции solr, но этот процесс слишком утомителен.

РЕДАКТИРОВАТЬ: Что я могу использовать в качестве обработчика запросов, если мне нужно использовать «HTMLStripCharFilterFactory», как это было предложено Джаендрой в ответе? также могу ли я извлечь теги метаданных в этом случае?

Может ли кто-нибудь направить меня по этому поводу!

Спасибо за вашу поддержку.!!!


person Div Tiwari    schedule 08.02.2013    source источник


Ответы (1)


Solr Cell с Tika не поддерживает исходное форматирование документа.
Вы получите только извлеченный текст из документов, загруженных в Solr через Tika.

В противном случае вам нужно передать html-документ как обычное поле Solr и применить фильтр HTMLStripCharFilterFactory. сохранить обе копии.

Solr будет поддерживать исходный документ с полями HTML, если хранить=true.
Однако для поиска (indexed=true) поиск будет выполняться только в содержимом, а не в элементах html.

person Jayendra    schedule 08.02.2013
comment
Спасибо за ответ. Я ожидал от вас ответа, так как видел, что вы отвечаете на множество тегов solr. Переходя к делу, не могли бы вы объяснить мне больше о документе как обычном поле. Это похоже на то, что я должен передать HTML-документ в текстовом формате в solr? - person Div Tiwari; 08.02.2013
comment
yup должен передавать содержимое html-документа как обычное поле solr, которое будет проанализировано с помощью html-фильтра. - person Jayendra; 08.02.2013
comment
Надеюсь, вы поняли мой вопрос, что я хочу отобразить исходный документ, в котором был найден поиск, с выделением и другими дополнениями. Если я предоставлю html-документ в виде текста, поэтому поисковый запрос будет выполняться в HTML-тегах, что мне не нужно. Можете ли вы помочь мне в этом, я совершенно новичок в solr. - person Div Tiwari; 08.02.2013
comment
Пожалуйста, поместите несколько примеров изменений на уровне конфигурации, которые мне нужно сделать либо в schema.xml, либо в solrconfig.xml. - person Div Tiwari; 08.02.2013
comment
какой обработчик запросов я могу использовать, кроме ExtractingRequestHandler? мне нужно сделать свой собственный? или есть ли какой-либо предопределенный обработчик :( пожалуйста, помогите!!! - person Div Tiwari; 12.02.2013