Генерация схемы Avro в HDFS

У меня есть сценарий, в котором у меня есть некоторый набор файлов avro в HDFS. И мне нужно сгенерировать файлы схемы Avro для этих файлов данных AVRO в HDFS. Я пытался исследовать с помощью Spark (https://github.com/databricks/spark-avro/blob/master/src/main/scala/com/databricks/spark/avro/SchemaConverters.scala).

Есть ли что-то другое, кроме переноса файла данных AVRO на локальный сервер и выполнения HDFS PUT .

Любые предложения приветствуются. Спасибо!


person Govind    schedule 14.10.2016    source источник


Ответы (1)


Каждый файл avro включает в себя схему avro, с которой он был написан. Вы можете извлечь эту схему с помощью avro-tools.jar (скачать с maven). Вы можете загрузить только одну часть (при условии, что все остальные файлы были написаны с той же схемой) и использовать инструменты avro (java -jar ~/workspace/avro-tools-1.7.7.jar getschema xxx.avro) для ее извлечения.

person Igor Berman    schedule 15.10.2016