Я пытаюсь настроить Kubernetes с узлами / ведомыми устройствами Nvidia GPU. Я следовал руководству по адресу https://docs.nvidia.com/datacenter/kubernetes-install-guide/index.html, и мне удалось подключить узел к кластеру. Я попробовал следующий пример модуля kubeadm:
apiVersion: v1
kind: Pod
metadata:
name: gpu-pod
spec:
containers:
- name: cuda-container
image: nvidia/cuda:9.0-base
command: ["sleep"]
args: ["100000"]
extendedResourceRequests: ["nvidia-gpu"]
extendedResources:
- name: "nvidia-gpu"
resources:
limits:
nvidia.com/gpu: 1
affinity:
required:
- key: "nvidia.com/gpu-memory"
operator: "Gt"
values: ["8000"]
Pod не выполняет планирование, и события kubectl показывают:
4s 2m 14 gpu-pod.15487ec0ea0a1882 Pod Warning FailedScheduling default-scheduler 0/2 nodes are available: 1 Insufficient nvidia.com/gpu, 1 PodToleratesNodeTaints.
Я использую экземпляры AWS EC2. m5.large для главного узла и g2.8xlarge для ведомого узла. Описание узла также дает "nvidia.com/gpu: 4". Может ли кто-нибудь помочь мне, если мне не хватает каких-либо шагов / конфигураций?
kubectl describe nodes
. А также поделитесь результатами команд:kubectl describe pods gpu-pod
иkubectl logs gpu-pod
. Предоставленной вами информации недостаточно для понимания происходящего. - person Artem Golenyaev   schedule 07.08.2018nvidia.com/gpu-memory
памяти или расширить ресурсы узлов графического процессора Nvidia - person Artem Golenyaev   schedule 09.08.2018