Всякий раз, когда Solr индексируется для коллекции (с configSet sample_techproducts_configs
) и использует URL-адрес, с помощью следующей команды:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
В созданных индексах есть поле content
, скопированное в поле text
. Это поле имеет значение содержимого веб-страницы, проанализированной с помощью встроенного синтаксического анализа.
Но когда эта веб-страница содержит какой-либо тег <script>
или <style>
, <body>
удаляется, но сценарий или стили внутри этих соответствующих тегов остаются в качестве содержимого веб-страниц и отображаются в ответ на запросы Solr.
Как удалить этот нежелательный контент?