Использование сжатых файлов с Datafusion

Есть ли способ использовать сжатые файлы с помощью слияния данных в облаке. Я использовал Google Storage в качестве источника и поместил файл gzip в предпочтительное место.

В преобразовании обработчика я не вижу предварительного просмотра. Когда я пытаюсь выбрать файл с помощью Select Data, заархивированный файл не выделяется. Эти шаги отлично работают, когда я работаю с несжатым файлом.

Должен ли я использовать какое-нибудь преобразование, прежде чем я буду препираться? Есть ли способ напрямую прочитать сжатый файл и просмотреть данные. При подготовке данных преобразование идентифицирует файлы на основе расширения, однако при слиянии данных такой опции, похоже, нет.

Я использовал базовую версию среды слияния данных, поможет ли корпоративная версия?


person Trishit Ghosh    schedule 25.11.2019    source источник


Ответы (2)


Wrangler ожидает, что файлы будут несжатыми, и пока не поддерживает чтение сжатых файлов. Я открыл запрос на улучшение того же https://issues.cask.co/browse/CDAP-16140

Спасибо, Шри

person Sree    schedule 26.11.2019
comment
Спасибо, Шри, буду ждать обновления по запросу на доработку. Я новичок в использовании среды CDAP, поэтому я не очень знаком с интерфейсом. Есть ли способ использовать сжатый файл в качестве источника, а затем использовать преобразование, чтобы распаковать файл, а затем передать его обработчику? - person Trishit Ghosh; 27.11.2019

Хотя обработчик не позволяет нам выбирать сжатый файл и выполнять преобразования в файле в интерактивном режиме, мы, тем не менее, можем ввести директивы обработчика вручную. Конвейер будет работать должным образом, если мы передадим сжатый файл источнику во время выполнения.

person Trishit Ghosh    schedule 10.01.2020