Есть ли способ отслеживать статус модуля и перезапускать количество модулей, работающих в кластере GKE, с помощью Stackdriver?
Хотя я могу видеть показатели использования ЦП, памяти и диска для всех модулей в Stackdriver, похоже, нет способа получить показатели о сбоях модулей или модулей в перезапускаемом наборе реплик из-за сбоев.
Я использую набор реплик Kubernetes для управления подами, поэтому они возрождаются и создаются с новым именем при сбое. Насколько я могу судить, метрики в Stackdriver отображаются по имени модуля (которое является уникальным для времени жизни модуля), что звучит не очень разумно.
Оповещение о сбоях модуля звучит настолько естественно, что трудно поверить, что это не поддерживается в настоящий момент. Возможности мониторинга и оповещения, которые я получаю от Stackdriver для Google Container Engine в существующем виде, кажутся довольно бесполезными, поскольку все они привязаны к модулям, время жизни которых может быть очень коротким.
Итак, если это не работает из коробки, есть ли известные обходные пути или передовые методы отслеживания непрерывных сбоев модулей?