Очистка мертвых узлов от SGE

Мой qstat -g c указывает, что у меня есть несколько мертвых узлов (формально 'cdsuE'):

CLUSTER QUEUE                   CQLOAD   USED    RES  AVAIL  TOTAL aoACDS  cdsuE  
--------------------------------------------------------------------------------
all.q                             0.11     18      0      9     37      0     10 

Есть ли простой способ очистить или удалить эти узлы из очереди?

SGE достаточно умна, чтобы не выделять им работу, но они загромождают различные дисплеи.


person Alex Rothberg    schedule 02.07.2015    source источник


Ответы (2)


Я делаю это трудным путем.

  1. Уничтожьте задания, «запущенные» или застрявшие на мертвых узлах.
  2. Запустите конвейер удаления узла qconf

-

qconf -dattr hostgroup hostlist <nodealias> @allhosts'
qconf -purge queue slots all.q@<nodealias>
qconf -dconf <nodealias>
qconf -de <nodealias>
person Finch_Powers    schedule 02.07.2015
comment
Есть ли способ удалить узел из всех списков хостов и очередей, в которых он состоит? (т.е. вместо того, чтобы жестко кодировать all.q? - person Alex Rothberg; 27.10.2017
comment
Я получаю Host object "node024" is still referenced in cluster queue "all.q". - person Alex Rothberg; 26.04.2018

Если вы просто хотите удалить из очереди, удалите их из очереди с помощью:

qconf -dattr queue hostlist <nodename> all.q

или если они включены через хост-группу

qconf -dattr hostgroup hostlist <nodename> <hostgroup>

Это делает минимум, необходимый для того, чтобы вывести их из очереди, но позволяет легко добавить их обратно, если вам удастся воскресить их позже.

Если на узле есть какие-либо призрачные задания, используйте qdel -f, чтобы избавиться от них.

person William Hay    schedule 19.07.2015