Как сохранить исходное форматирование HTML-документа в результатах, предоставленных Solr?
Я пытаюсь предоставить функцию поиска на веб-сайте одной из моих компаний, на котором есть миллионы документов, и все они не имеют одинакового форматирования, поэтому сложно форматировать каждый документ по отдельности.
Я использую ночные сборки Solr 4.1 на сайте apache со встроенной поддержкой solr-cell и tika. . т.е. мне не нужно их отдельно настраивать.
Сохраняет ли solr-cell или tika это форматирование где-нибудь?
Если он не сохраняет форматирование, мне нужно будет извлечь каждый документ из физического местоположения файла, используя поле resourcename solr, и применить выделение и другие готовые функции solr, но этот процесс слишком утомителен.
РЕДАКТИРОВАТЬ: Что я могу использовать в качестве обработчика запросов, если мне нужно использовать «HTMLStripCharFilterFactory», как это было предложено Джаендрой в ответе? также могу ли я извлечь теги метаданных в этом случае?
Может ли кто-нибудь направить меня по этому поводу!
Спасибо за вашу поддержку.!!!