Как удалить сценарии и стили в содержимом индексов SOLR [поле содержимого] при индексации через URL?

Всякий раз, когда Solr индексируется для коллекции (с configSet sample_techproducts_configs) и использует URL-адрес, с помощью следующей команды:

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

В созданных индексах есть поле content, скопированное в поле text. Это поле имеет значение содержимого веб-страницы, проанализированной с помощью встроенного синтаксического анализа.

Но когда эта веб-страница содержит какой-либо тег <script> или <style>, <body> удаляется, но сценарий или стили внутри этих соответствующих тегов остаются в качестве содержимого веб-страниц и отображаются в ответ на запросы Solr.

Как удалить этот нежелательный контент?


person S Jayesh    schedule 07.04.2017    source источник


Ответы (1)


Прочитайте inputstream из DATA_MODE_WEB в SimplePostTool (только для тех, у кого тип контента "text/html" и удалите все теги <script> и <style> с его содержимым и снова преобразуйте эту content_String в поток, используя функцию stringToStream(String) в readPageFromUrl(URL u) .

person S Jayesh    schedule 26.04.2017