Kubernetes etcd HighNumberOfFailedHTTPRequests QGET

Я запускаю кластер kubernetes в AWS, CoreOS-stable-1745.6.0-hvm (ami-401f5e38), все развернуто с помощью kops 1.9.1/terraform.

etcd_version = "3.2.17"
k8s_version = "1.10.2"

Это оповещение Prometheus method=QGET alertname=HighNumberOfFailedHTTPRequests поступает из пакета мониторинга coreos kube-prometheus. Оповещение начало срабатывать с самого начала жизни кластера и теперь существует около 3 недель без видимых последствий.

^ Сбой QGET — 33% запросов.

ПРИМЕЧАНИЕ. У меня есть второй кластер в другом регионе, построенный с нуля на тех же версиях, и он ведет себя точно так же. Так что это воспроизводимо.

Кто-нибудь знает, что может быть основной причиной, и каковы последствия, если игнорировать дальше?

РЕДАКТИРОВАТЬ: Позже я нашел эту проблему GH, которая точно описывает мой случай: https://github.com/coreos/etcd/issues/9596

Max Lobur 13.07.2018 источник

Ответы (2)

arrow_upward
0
arrow_downward

Из документации CoreOS:

Чтобы оповещения не появлялись при произвольных событиях, обычно лучше не предупреждать непосредственно о необработанном значении, которое было выбрано, а путем агрегирования и определения относительного порога, а не жестко заданного значения. Например: отправить предупреждение, если 1% HTTP-запросов не удалось, вместо отправки предупреждения, если за последние пять минут не удалось выполнить 300 запросов. Статическое значение также потребует изменения при изменении объема трафика.

Здесь вы можете найти подробную информацию о том, как разработать оповещения Prometheus для etcd.< /а>

Akar 16.07.2018

arrow_upward
0
arrow_downward

Я получил объяснение в ветке GitHub issue. Метрики/оповещения HTTP следует заменить на GRPC.

Max Lobur 16.07.2018

Kubernetes etcd HighNumberOfFailedHTTPRequests QGET

Ответы (2)

Вопросы по теме