Kubernetes etcd HighNumberOfFailedHTTPRequests QGET

Я запускаю кластер kubernetes в AWS, CoreOS-stable-1745.6.0-hvm (ami-401f5e38), все развернуто с помощью kops 1.9.1/terraform.

etcd_version = "3.2.17"
k8s_version = "1.10.2"

Это оповещение Prometheus method=QGET alertname=HighNumberOfFailedHTTPRequests поступает из пакета мониторинга coreos kube-prometheus. Оповещение начало срабатывать с самого начала жизни кластера и теперь существует около 3 недель без видимых последствий.

введите здесь описание изображения

^ Сбой QGET — 33% запросов.

ПРИМЕЧАНИЕ. У меня есть второй кластер в другом регионе, построенный с нуля на тех же версиях, и он ведет себя точно так же. Так что это воспроизводимо.

Кто-нибудь знает, что может быть основной причиной, и каковы последствия, если игнорировать дальше?

РЕДАКТИРОВАТЬ: Позже я нашел эту проблему GH, которая точно описывает мой случай: https://github.com/coreos/etcd/issues/9596


person Max Lobur    schedule 13.07.2018    source источник


Ответы (2)


Из документации CoreOS:

Чтобы оповещения не появлялись при произвольных событиях, обычно лучше не предупреждать непосредственно о необработанном значении, которое было выбрано, а путем агрегирования и определения относительного порога, а не жестко заданного значения. Например: отправить предупреждение, если 1% HTTP-запросов не удалось, вместо отправки предупреждения, если за последние пять минут не удалось выполнить 300 запросов. Статическое значение также потребует изменения при изменении объема трафика.

Здесь вы можете найти подробную информацию о том, как разработать оповещения Prometheus для etcd.< /а>

person Akar    schedule 16.07.2018

Я получил объяснение в ветке GitHub issue. Метрики/оповещения HTTP следует заменить на GRPC.

person Max Lobur    schedule 16.07.2018