Airflow: используйте LivyBatchOperator для отправки приложений pyspark в пряжу.

Я столкнулся с чем-то под названием LivyBatchOperator, но не смог найти очень хороший пример для отправки приложений pyspark в потоке воздуха. Любая информация об этом будет действительно оценена. Заранее спасибо.


person kavya    schedule 30.06.2020    source источник


Ответы (1)


Я наткнулся на этот сообщение в блоге, которое может помочь вам ходить с помощью доступных опций Airflow + Spark.

Вот пример LivyBatchOperator и здесь описано, как установить airflow-livy-operators.

Я бы рекомендовал следующие варианты:

  1. AWS EMR: используйте EmrAddStepsOperator.
  2. Обычный кластер Spark: используйте описанный выше механизм для настройки операторов Livy в воздушном потоке. Это даст вам удобную конфигурацию с точки зрения серверов воздушного потока, а также использование Livy перед искровым кластером.

Дайте мне знать ваш ответ!

person Abdul    schedule 01.07.2020
comment
Спасибо, соответствующие блоги помогли мне начать. Можем ли мы передать zip-файл в параметре file и имя_класса при отправке приложений pyspark через livy? - person kavya; 01.07.2020
comment
Да, есть возможность передавать ZIP-файлы, используя аргумент файлов, а не файл. files — используется для отправки списка ZIP-файлов. file — в случае python используйте это как точку входа для запуска драйвера spark. См. здесь документацию по Livy API, которая является основой этого LivyBatchOperator. livy.incubator.apache.org/docs/latest/rest-api. html - person Abdul; 01.07.2020
comment
У меня возникают проблемы, когда я пробовал это LivyBatchOperator( task_id = 'spark_job', file = '/abc/xyz.zip', class_name = 'src.foo.py', py-files), "spark.submit.pyFiles":'/abc/lmn.zip' where src.foo.py is a file in xyz.zip Error: --py-files given but primary resource is not a Python script. @Абдул - person kavya; 02.07.2020