Ниже приведено содержимое моего CSV-файла:
A1,B1,C1
A2,B2,C2,D1
A3,B3,C3,D2,E1
A4,B4,C4,D3
A5,B5,C5,,E2
Итак, есть 5 столбцов, но только 3 значения в первой строке.
Я прочитал его с помощью следующей команды:
val csvDF : DataFrame = spark.read
.option("header", "false")
.option("delimiter", ",")
.option("inferSchema", "false")
.csv("file.csv")
И вот что я получаю, используя csvDF.show()
+---+---+---+
|_c0|_c1|_c2|
+---+---+---+
| A1| B1| C1|
| A2| B2| C2|
| A3| B3| C3|
| A4| B4| C4|
| A5| B5| C5|
+---+---+---+
Как я могу прочитать все данные во всех столбцах?
sc.textFile
и проверить, имеет ли каждая строка количество столбцов, равное тому, что у вас есть в схеме. - person philantrovert   schedule 10.08.2017