Я запускаю много повторов одного и того же задания, используя numpy в кластере, который использует механизм солнечной сетки для распределения заданий (звездный кластер). Каждый из моих узлов имеет 2 ядра (c3.large на AWS). Итак, у меня есть 5 узлов, каждый из которых имеет 2 ядра.
Матричные операции в numpy могут использовать более одного ядра одновременно. Я обнаружил, что SGE отправляет одновременно 10 заданий, каждое из которых использует ядро. Это приводит к увеличению времени выполнения заданий. Глядя на htop, похоже, что два задания на каждом ядре борются за ресурсы.
Как я могу указать qsub распределять 1 задание на узел. Чтобы, когда я отправляю свои задания, одновременно выполнялось только 5, а не 10?