В моей компании мы собрали очень разнородный кластер YARN + Spark, используя комбинацию старых и новых машин. Поскольку статистика отдельных машин сильно различается, я хотел бы иметь возможность запускать несколько исполнителей на больших машинах. Установка --num-executors
выше количества машин в кластере не работает. Есть ли какие-то другие настройки, которые мне нужно изменить, чтобы включить это, или это просто невозможно?
Несколько исполнителей на одного работника с использованием YARN и Spark?
Ответы (1)
Передайте параметр --executor-cores. Для хорошей производительности должно быть ~4: http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/
Это раскрутит один исполнитель на 4-ядерной машине и 4 исполнителя на 16-ядерной машине.
person
Tim
schedule
28.10.2016
Я не думаю, что это правда. Я устанавливаю
--executor-cores
на 2 из-за нехватки памяти, и я все еще получаю только один исполнитель на всех машинах, включая ту, у которой 32 ядра.
- person job; 28.10.2016
Можете ли вы опубликовать свою искровую конфу в своем вопросе? Это поможет нам отладить.
- person Tim; 28.10.2016