Я новичок в Spark и пытаюсь понять, как работают разные кодеки сжатия. Я использую Cloudera Quickstart VM 5.12x, Spark 1.6.0 и API Python.
Если я сжимаю и сохраняю как файлы Parquet, используя следующую логику:
sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
df.write.parquet("/user/cloudera/data/orders_parquet_snappy")
то я могу прочитать их как:
sqlContext.read.parquet("/user/cloudera/data/orders_parquet_snappy").show()
Я считаю, что выше прочитанное не нужно распаковывать и читать. Интересно, почему и в каком состоянии я буду использовать несжатый ?
sqlContext.setConf("spark.sql.parquet.compression.codec", "uncompressed")
Не уверен, что мое понимание правильное.