Я пытаюсь настроить свой кластер высокопроизводительных вычислений (я использую Sparklyr) и пытаюсь собрать некоторые важные спецификации, указанные в http://blog.cloudera.com/blog/2015/03:
Чтобы сделать все это немного более конкретным, вот рабочий пример настройки приложения Spark для использования как можно большей части кластера: Представьте себе кластер с шестью узлами, на которых работают NodeManager, каждый из которых оснащен 16 ядрами и 64 ГБ памяти.
а именно:
- количество узлов
- количество ядер
- место на диске и оперативная память
Я знаю, как использовать sinfo -n -l
, но вижу слишком много ядер и не могу легко получить эту информацию. Есть ли более простой способ узнать общие характеристики моего кластера?
В конечном счете, я пытаюсь найти разумные параметры для --num-executors
--executor-cores
и --executor-memory