У меня есть задание Spark, работающее в кластере EMr, которое записывает DataFrame в HDFS (который затем преобразуется s3-dist-cp
в S3
). Размер данных небольшой (2 ГБ при сохранении как parquet
). Эти данные в S3 затем копируются в локальную файловую систему (экземпляр EC2 под управлением Linux), а затем загружаются в приложение Java.
Оказывается, у меня не может быть данных в формате parquet
, потому что паркет был разработан для HDFS и не может использоваться в локальной ФС (если я ошибаюсь, укажите мне ресурс о том, как читать файлы паркета в локальной ФС).
Какой другой формат я могу использовать для решения этой проблемы? Будет ли Avro достаточно компактным и не увеличит размер данных, упаковывая схему в каждую строку фрейма данных?
parquet
лучше справлялся с созданием файлов меньшего размера, но увеличение было небольшим (20%). - person Nik   schedule 21.07.2018