Несколько исполнителей на одного работника с использованием YARN и Spark?

В моей компании мы собрали очень разнородный кластер YARN + Spark, используя комбинацию старых и новых машин. Поскольку статистика отдельных машин сильно различается, я хотел бы иметь возможность запускать несколько исполнителей на больших машинах. Установка --num-executors выше количества машин в кластере не работает. Есть ли какие-то другие настройки, которые мне нужно изменить, чтобы включить это, или это просто невозможно?


person job    schedule 28.10.2016    source источник


Ответы (1)


Передайте параметр --executor-cores. Для хорошей производительности должно быть ~4: http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/

Это раскрутит один исполнитель на 4-ядерной машине и 4 исполнителя на 16-ядерной машине.

person Tim    schedule 28.10.2016
comment
Я не думаю, что это правда. Я устанавливаю --executor-cores на 2 из-за нехватки памяти, и я все еще получаю только один исполнитель на всех машинах, включая ту, у которой 32 ядра. - person job; 28.10.2016
comment
Можете ли вы опубликовать свою искровую конфу в своем вопросе? Это поможет нам отладить. - person Tim; 28.10.2016