Есть ли какой-либо способ поиска содержимого двоичных файлов, таких как PPT, PDF и т. Д., Кроме
преобразовать его в формат X HTML с помощью функции xdmp: document-filter () и выполнить поиск по нему?
Есть ли какой-либо способ поиска содержимого двоичных файлов, таких как PPT, PDF и т. Д., Кроме
преобразовать его в формат X HTML с помощью функции xdmp: document-filter () и выполнить поиск по нему?
В основном нет. Вы должны вытащить читаемый текст из двоичного формата, чтобы MarkLogic мог его проиндексировать. Вы можете извлечь этот текст с помощью xdmp:document-filter()
или с помощью таких функций, как xdmp:pdf-convert()
и xdmp:word-convert()
, но нет возможности напрямую индексировать двоичные узлы.
HTH!