График воздушных потоков на основе безопасных файлов конфигурации

Я использую Airflow для планирования отправки JAR (соответствующих упаковке приложений Spark) в кластер Hadoop. Различные задания Spark имеют одинаковое имя JAR, но в зависимости от файлов конфигурации (я использую файлы .conf с библиотекой конфигурации TypeSafe) запускаются разные задания. Мой вопрос в том, как заставить Airflow анализировать файлы .conf, чтобы знать, какое искровое задание запускать. Итак, я запускаю приложение Spark с spark-submit --class ( same class for all jobs) -Dconfig.file=path/to/config-file

Любая идея об этом, пожалуйста


person scalacode    schedule 09.09.2018    source источник


Ответы (1)


Я столкнулся с той же проблемой. Мне удалось передать конфиг через свойства системы jvm. Это работает, потому что конфигурация typeafe включает системные свойства jvm при загрузке.

Точнее, я отправляю необходимые свойства в файле конфигурации через spark.driver.extraJavaOptions.

person Hui Wang    schedule 09.09.2018
comment
но как передать это воздушному потоку - person scalacode; 10.09.2018
comment
@scalacode Я жестко закодировал конфигурацию в задаче, в которой я отправляю искровое задание. - person Hui Wang; 10.09.2018
comment
привет, я использовал это: dataproc_spark_properties = {'spark.driver.extraJavaOptions': 'gs: //test-dev/fileConf/development.conf'}. Но это не сработало. Как тебе это удалось, пожалуйста - person scalacode; 14.09.2018