Как прочитать файл Parquet с помощью Spark Core API?
Я знаю, что при использовании Spark SQL есть несколько методов для чтения файла паркета. Но мы не можем использовать Spark SQL для наших проектов.
Должны ли мы использовать метод newAPIHadoopFile
для JavaSparkContext
, чтобы сделать это?
Я использую Java для реализации Spark Job.
val file = sqlContext.read.parquet("hdfs:///somefile.parquet").rdd
Как насчет HiveContext?val file = hc.load("somefile.parquet")
Если нет, то лучшеnewAPIHadoopFile
. - person Greg   schedule 25.11.2015