Когда я пытаюсь прочитать паркетный файл из указанного места, например / test, с помощью spark.read.parquet (), я получаю сообщение об ошибке file: // test не существует. Когда я добавляю core-site.xml в качестве ресурса в код с
sc.hadoopConfiguration.addResource(new Path(<path-to-core-site.xml>))
он смотрится в hdfs. Однако я не хочу добавлять ресурс в код. У меня вопрос: как убедиться, что Spark читает core-site.xml и использует hdfs в качестве файловой системы по умолчанию.
Я установил сервер ubuntu 18.04.2LTS с hadoop 3, spark 2.4.2 и yarn в качестве диспетчера ресурсов на виртуальной машине. Я настроил core-site.xml, указав для fs.defaultFS значение hdfs: // localhost: 9000. Я также настроил HADOOP_CONF_DIR в файле bash.