Невозможно выполнить скрипт Pyspark с помощью искрового действия в Oozie - Ошибка при создании экземпляра org.apache.spark.sql.hive.HiveExternalCatalog

Я столкнулся с ошибкой ниже при выполнении искрового действия через рабочий процесс oozie в кластере EMR 5.14:

pyspark.sql.utils.IllegalArgumentException: u «Ошибка при создании экземпляра 'org.apache.spark.sql.hive.HiveExternalCatalog'» Мой сценарий Pyspark работает нормально, когда выполняется как обычное искровое задание, но не выполняется выполняется через программу Oozie Pyspark: -

    spark = SparkSession.builder.appName("PysparkTest").config("hive.support.quoted.identifiers", "none").enableHiveSupport().getOrCreate()
    sc = SparkContext.getOrCreate();
    sqlContext = HiveContext(sc)
    sqlContext.sql("show databases").show()

Я создал workflow.xml и job.properties со ссылкой на ССЫЛКА.

Я скопировал весь файл конфигурации, связанный с Spark и Hive, в один и тот же каталог ($ SPARK_CONF_DIR /). Hive также настроен на использование MySQL в качестве хранилища метаданных.

Будет здорово, если вы поможете мне разобраться в проблеме, с которой я столкнулся при запуске этой программы Pyspark в виде файла jar в действии Oozie spark.


person Nikita Jaiswal    schedule 15.04.2020    source источник


Ответы (1)


Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog' Это означает, что Catalog jar, который он пытается найти, не является каталогом искр ooziesharelib.

Добавьте следующее свойство в ваш job.properties файл.

oozie.action.sharelib.for.spark=hive,spark,hcatalog

Не могли бы вы выложить, пожалуйста, весь журнал?

И, если возможно, не могли бы вы запустить то же самое на EMR 5.29, я столкнулся с несколькими проблемами с jar на 5.26 и более ранней версии при запуске PySpark.

person Snigdhajyoti    schedule 29.04.2020