Я только пытаюсь прочитать текстовый файл в RDD pyspark и замечаю огромные различия между sqlContext.read.load
и sqlContext.read.text
.
s3_single_file_inpath='s3a://bucket-name/file_name'
indata = sqlContext.read.load(s3_single_file_inpath, format='com.databricks.spark.csv', header='true', inferSchema='false',sep=',')
indata = sqlContext.read.text(s3_single_file_inpath)
Команда sqlContext.read.load
выше не работает с
Py4JJavaError: An error occurred while calling o227.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org
А второй удается?
Теперь меня это смущает, потому что все ресурсы, которые я вижу в Интернете, говорят об использовании sqlContext.read.load
, включая этот: https://spark.apache.org/docs/1.6.1/sql-programming-guide.html.
Мне не ясно, когда использовать, какой из них использовать, когда. Есть ли четкое различие между ними?