У меня есть случай, когда я получаю несколько CSV от третьих лиц (немного сложно заставить их изменить формат), и эти CSV должны иметь одинаковые столбцы, но иногда один или несколько столбцов отсутствуют. Если я использую файл CDAP (чтение как текст), за которым следует Wrangler для обработки CSV, Wrangler со следующей директивой:
parse-as-csv :body '\\t' true
cleanse-column-names
Предполагается, что все прочитанные файлы имеют один и тот же формат столбцов, и будут искажать данные файлов, которые имеют меньше или больше столбцов, чем первый файл.
До сих пор я пытался использовать файл для чтения как blob и вывода в байтах с Wrangler, настроенным с помощью этой директивы:
set-type :body string
parse-as-csv :body '\t' true
cleanse-column-names
Но теперь у меня даже нет вывода (или ошибки), поэтому я не знаю, как разбирать эти неоднородные файлы. Сможет ли CDAP справиться с этим случаем? Если да, то как?