Долго работающая искра отправки задания

Я пытаюсь запустить скрипт, используя искровую отправку, как это

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

Этот скрипт реализует алгоритм DIMSUM для записей размером 60 КБ.

Ссылка: https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

К сожалению, это продолжается даже после 3 часов. Я устал с данными 1K и успешно работает в течение 2 минут.

Может ли кто-нибудь порекомендовать какие-либо изменения в параметрах spark-submit, чтобы сделать это быстрее?


person MasterGoGo    schedule 01.02.2017    source источник
comment
Посмотрите схемы Spark Web UI, может у вас плохой параллелизм - тогда repartition поможет   -  person T. Gawęda    schedule 02.02.2017


Ответы (1)


Ваше заявление об отправке искры предполагает, что у вас есть как минимум 80 * 50 = 400 ядер, верно?

Это означает, что вы должны убедиться, что у вас есть как минимум 400 разделов, чтобы гарантировать, что все ваши ядра работают (т.е. каждое ядро ​​имеет как минимум 1 задачу для обработки).

Глядя на код, который вы используете, я думаю, вы должны указать количество разделов при чтении текстового файла в sc.textFile(), AFAIK по умолчанию равно 2 (см. defaultMinPartitions в SparkContext.scala)

person Raphael Roth    schedule 02.02.2017