получение количества узлов, количества кодов и доступной оперативной памяти для настройки

Я пытаюсь настроить свой кластер высокопроизводительных вычислений (я использую Sparklyr) и пытаюсь собрать некоторые важные спецификации, указанные в http://blog.cloudera.com/blog/2015/03:

Чтобы сделать все это немного более конкретным, вот рабочий пример настройки приложения Spark для использования как можно большей части кластера: Представьте себе кластер с шестью узлами, на которых работают NodeManager, каждый из которых оснащен 16 ядрами и 64 ГБ памяти.

а именно:

  • количество узлов
  • количество ядер
  • место на диске и оперативная память

Я знаю, как использовать sinfo -n -l, но вижу слишком много ядер и не могу легко получить эту информацию. Есть ли более простой способ узнать общие характеристики моего кластера?

В конечном счете, я пытаюсь найти разумные параметры для --num-executors --executor-cores и --executor-memory


person ℕʘʘḆḽḘ    schedule 26.06.2017    source источник
comment
почему минус?   -  person ℕʘʘḆḽḘ    schedule 26.06.2017
comment
ОК удалено. можешь еще раз проголосовать~   -  person ℕʘʘḆḽḘ    schedule 26.06.2017


Ответы (1)


Количество узлов:

sinfo -O "nodes" --noheader

Количество ядер: «ядрами» Slurm по умолчанию является количество ядер на сокет, а не общее количество ядер, доступных на узле. Несколько сбивает с толку то, что в Slurm процессор = ядра * сокеты (таким образом, двухпроцессорная 6-ядерная машина будет иметь 2 сокета, 6 ядер и 12 процессоров).

Количество ядер (= процессор в Slurm), место на диске и оперативную память получить сложнее, так как они могут отличаться на разных узлах. Следующее возвращает простой для анализа список:

sinfo -N -O "nodehost,disk,memory,cpus" --noheader

Если все узлы одинаковы, мы можем получить информацию из первой строки sinfo:

Количество ядер (=процессор Slurm) на узел:

sinfo -N -O "cpus" --noheader | head -1

Оперативная память на узел:

sinfo -N -O "memory" --noheader | head -1

дисковое пространство на узел:

sinfo -N -O "disk" --noheader | head -1
person ang mo    schedule 28.06.2017
comment
большой! вы правы, не все узлы имеют одинаковую оперативную память / характеристики ... как это влияет на ваш ответ? - person ℕʘʘḆḽḘ; 28.06.2017
comment
@Noobie: посмотри мое редактирование; однако, если узлы различаются, вам следует оптимизировать выполнение искры на основе параметров узлов, которые вы фактически получили для своей работы (таким образом, после запуска задания). Это требует некоторых скриптов... - person ang mo; 28.06.2017
comment
Как ни странно, когда я набираю sinfo -N -l, я вижу количество процессоров, которое больше, чем количество ядер, которое я вижу, набрав sinfo -N -O "nodehost,disk,memory,cores" --noheader. что это значит?? - person ℕʘʘḆḽḘ; 28.06.2017