MLCP загружает сжатые файлы xml и пропускает файлы xml с определенным тегом xml

Я пытаюсь загрузить файлы xml gzip и разбиваю входной xml на несколько записей xml .. Но есть ли способ в mlcp игнорировать запись при загрузке, если присутствует конкретный тег xml или значение xml. Если нет, то какие у меня другие варианты?

Ниже приведены мои варианты, которые я использую сейчас, чтобы загрузить файл gzip xml и разбить его на отдельные записи.

import
-host
xxxxx
-port
xxxx
-username
xxxx
-password
xxxx
-batch_size
1
-input_compressed
true
-input_compression_codec
gzip
-input_file_type
aggregates
-output_collections
wos
-output_permissions
rest-reader,read,rest-writer,update
-output_uri_prefix
/wos/
-output_uri_suffix
.xml
-aggregate_record_element
REC
-aggregate_record_namespace
http://xxxx.yyyy.com
-uri_id
UID

person Ravi    schedule 06.04.2018    source источник


Ответы (1)


Я могу думать только об использовании преобразования MLCP (-transform_module e.a.), в котором вы условно проходите через $ content map: map. Верните пустую последовательность, если вы хотите подавить конкретный совокупный фрагмент.

HTH!

person grtjn    schedule 06.04.2018
comment
Могу ли я использовать входное преобразование DHF для этого, будет ли он вызван до того, как будет вставлен фрагмент xml. А также будет ли вызываться модуль преобразования или функция преобразования после разбивки записей? - person Ravi; 06.04.2018
comment
MLCP сначала разбивает агрегаты и вызывает преобразование для каждого фрагмента, как и для каждой записи с разделителями. К сожалению, для DHF требуется собственное преобразование, и я не уверен, позволяет ли он такой же трюк. Возможно, лучше всего подать иск против самого проекта, чтобы спросить: github.com/marklogic -community / marklogic-data-hub / issues - person grtjn; 06.04.2018
comment
Спасибо .. похоже, что входной поток DHF вызывает после агрегированного разделения .. Поскольку я загружал DHF с пустым входным потоком, и это сработало .. Я попробую добавить фильтр во входной поток. - person Ravi; 06.04.2018