Я пытаюсь запустить скрипт, используя искровую отправку, как это
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
Этот скрипт реализует алгоритм DIMSUM для записей размером 60 КБ.
К сожалению, это продолжается даже после 3 часов. Я устал с данными 1K и успешно работает в течение 2 минут.
Может ли кто-нибудь порекомендовать какие-либо изменения в параметрах spark-submit, чтобы сделать это быстрее?
repartition
поможет - person T. Gawęda   schedule 02.02.2017