Наш CSV-файл имеет формат ^ A в качестве разделителя столбцов и ^ B в качестве разделителя строк / разделителей записей. Поэтому я использую библиотеку databricks spark csv для создания фрейма данных следующим образом:
val dataFrame = cassSqlContext.read.format("com.databricks.spark.csv")
.option("header", "true").option("inferSchema", "true")
.option("delimiter", "\u0001").load(file)
Глядя на документацию для spark csv, касающуюся параметра заголовков, говорится следующее: если установлено значение true, первая строка файлов будет использоваться для именования столбцов и не будет включена в данные. Все типы будут считаться строковыми. Значение по умолчанию - false.
Однако мы не используем \ n, мы используем ^ B. Итак, есть ли способ сообщить библиотеке spark csv, что наши заголовки также имеют разделитель, а не значение по умолчанию \ n
spark.read.csv("/tmp/my.csv")
- person BenFradet   schedule 14.03.2017