Сохранение файла CSV с помощью partitionBy в Spark

Я пытаюсь сохранить фрейм данных в виде CSV-файла, разделенного столбцом.

val schema = new StructType(
      Array(
        StructField("ID",IntegerType,true),
        StructField("State",StringType,true),
        StructField("Age",IntegerType,true)
      )
)

val df = sqlContext.read.format("com.databricks.spark.csv")
        .options(Map("path" -> filePath).schema(schema).load()

df.write.partitionBy("State").format("com.databricks.spark.csv").save(outputPath)

Но вывод не сохраняется ни с какой информацией о разделе. Похоже, что partitionBy был полностью проигнорирован. Ошибок не было. Это работает, если я попробую то же самое с форматом паркета.

df.write.partitionBy("State").parquet(outputPath)

Что мне здесь не хватает?

Cheeko 09.02.2016 источник

Ответы (1)

arrow_upward
2
arrow_downward

Поддержка partitionBy должна быть реализована как часть данного источника данных, и на данный момент (v1.3) не поддерживается в Spark CSV. См.: https://github.com/databricks/spark-csv/issues/123

Community 09.02.2016

comment

Нет комментариев о том, будет ли / когда это будет доступно. Тем временем есть какие-нибудь мысли об эффективном способе выполнения кода этого приложения? - Cheeko; 09.02.2016

comment

Похоже, синтаксический анализ csv станет частью ядра Spark SQL в версии 2.x... - zero323; 17.02.2016

comment

Можете ли вы предоставить ссылку на примечания к выпуску или блог, в котором говорится об этом? Хотелось бы больше информации. Спасибо! - Cheeko; 17.02.2016