calico-etcd не запланирован на GKE 1.11 k8s

Недавно я обновил свой кластер GKE с 1.10.x до 1.11.x, и с тех пор мои модули calico-node не могут подключиться к кластеру etcd и заканчиваются CrashLoopBackOff из-за ошибки livenessProbe.

Я увидел, что calico-etcd DaemonSet желает состояние 0, и мне было интересно об этом. nodeSelector находится в node-role.kubernetes.io/master=.

Из логов таких calico-nodeов:

2018-12-19 19:18:28.989 [INFO][7] etcd.go 373: Unhandled error: client: etcd cluster is unavailable or misconfigured; error #0: client: endpoint http://10.96.232.136:6666 exceeded header timeout

2018-12-19 19:18:28.989 [INFO][7] startup.go 254: Unable to query node configuration Name="gke-brokerme-ubuntu-pool-852d0318-j5ft" error=client: etcd cluster is unavailable or misconfigured; error #0: client: endpoint http://10.96.232.136:6666 exceeded header timeout

Состояние наборов демонов:

NAME                       DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR                                  AGE
calico-etcd                0         0         0       0            0           node-role.kubernetes.io/master=                3d
calico-node                2         2         0       2            0           <none>                                         3d

k get nodes --show-labels:

NAME                                     STATUS   ROLES    AGE   VERSION         LABELS
gke-brokerme-ubuntu-pool-852d0318-7v4m   Ready    <none>   4d    v1.11.5-gke.5   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/fluentd-ds-ready=true,beta.kubernetes.io/instance-type=n1-standard-2,beta.kubernetes.io/os=linux,cloud.google.com/gke-nodepool=ubuntu-pool,cloud.google.com/gke-os-distribution=ubuntu,failure-domain.beta.kubernetes.io/region=europe-west1,failure-domain.beta.kubernetes.io/zone=europe-west1-b,kubernetes.io/hostname=gke-brokerme-ubuntu-pool-852d0318-7v4m,os=ubuntu
gke-brokerme-ubuntu-pool-852d0318-j5ft   Ready    <none>   1h    v1.11.5-gke.5   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/fluentd-ds-ready=true,beta.kubernetes.io/instance-type=n1-standard-2,beta.kubernetes.io/os=linux,cloud.google.com/gke-nodepool=ubuntu-pool,cloud.google.com/gke-os-distribution=ubuntu,failure-domain.beta.kubernetes.io/region=europe-west1,failure-domain.beta.kubernetes.io/zone=europe-west1-b,kubernetes.io/hostname=gke-brokerme-ubuntu-pool-852d0318-j5ft,os=ubuntu

Я не модифицировал никаких манифестов calico, они должны быть предоставлены GKE в соотношении 1:1.

Я ожидаю, что либо calico-nodes подключатся к etc моего кластера Kubernetes, либо к calico-etcd, предоставленному DaemonSet. Поскольку в GKE нет мастер-узла, которым я могу управлять, я вроде как понимаю, почему calico-etcd находится в состоянии 0, но тогда к какому и т. д. должны подключаться calico-node? Что не так с моей небольшой и базовой установкой?


person SoJeN    schedule 19.12.2018    source источник


Ответы (1)


Нам известно о проблеме зацикливания сбоев Calico в GKE 1.11.x. Вы можете решить эту проблему путем обновления до более новых версий. , я бы порекомендовал вам перейти на версию «1.11.4-gke.12» или «1.11.3-gke.23», в которой нет этой проблемы.

person John Mathew    schedule 20.12.2018
comment
В настоящее время я использую последнюю версию, v1.11.5-gke.5. Поскольку я предполагал, что это может быть проблема с GKE, я дождался хотя бы одного обновления, прежде чем публиковать здесь. Однако проблема остается, к сожалению. - person SoJeN; 21.12.2018
comment
Я делюсь с вами этим общедоступным трекером, чтобы узнать, как другие люди решили эту проблему. Как видно из ссылки, обновление мастеров до версии 1.11.5-gke.4 должно решить проблему с Calico. Если вы по-прежнему страдаете, вы можете сообщить об ошибке, используя общедоступную проблему через раздел Вычисления, проблемы с Google Kubernetes Engine с вашими конкретными шагами для воспроизведения. - person mehdi sharifi; 29.12.2018