Я запускаю кластер kubernetes в AWS, CoreOS-stable-1745.6.0-hvm (ami-401f5e38), все развернуто с помощью kops 1.9.1/terraform.
etcd_version = "3.2.17"
k8s_version = "1.10.2"
Это оповещение Prometheus method=QGET alertname=HighNumberOfFailedHTTPRequests
поступает из пакета мониторинга coreos kube-prometheus. Оповещение начало срабатывать с самого начала жизни кластера и теперь существует около 3 недель без видимых последствий.
^ Сбой QGET — 33% запросов.
ПРИМЕЧАНИЕ. У меня есть второй кластер в другом регионе, построенный с нуля на тех же версиях, и он ведет себя точно так же. Так что это воспроизводимо.
Кто-нибудь знает, что может быть основной причиной, и каковы последствия, если игнорировать дальше?
РЕДАКТИРОВАТЬ: Позже я нашел эту проблему GH, которая точно описывает мой случай: https://github.com/coreos/etcd/issues/9596