Как прочитать файл Parquet с помощью Spark Core API?

Как прочитать файл Parquet с помощью Spark Core API?

Я знаю, что при использовании Spark SQL есть несколько методов для чтения файла паркета. Но мы не можем использовать Spark SQL для наших проектов.

Должны ли мы использовать метод newAPIHadoopFile для JavaSparkContext, чтобы сделать это?

Я использую Java для реализации Spark Job.


person Shankar    schedule 02.09.2015    source источник
comment
Можете ли вы использовать sqlContext? val file = sqlContext.read.parquet("hdfs:///somefile.parquet").rdd Как насчет HiveContext? val file = hc.load("somefile.parquet") Если нет, то лучше newAPIHadoopFile.   -  person Greg    schedule 25.11.2015


Ответы (1)


Используйте приведенный ниже код:

SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);
person developer.raj    schedule 20.04.2018