Не удалось найти сервер на www.googleapis.com только в GCP

Я знаю, что было несколько вопросов, похожих на эту проблему. Но в моем случае эта проблема возникает только на GCP. Мы запускаем наши сервисы в AKS (Azure) уже почти год, и ни разу не произошло. Сразу после того, как мы перешли на GCP GKE, несколько запросов нашего приложения Python попадают в ошибку: Unable to find the server at www.googleapis.com. В большинстве случаев запрос работает, поэтому он выглядит случайным. Я уже пытался увеличить время ожидания TCP, а также минимальное минимальное количество портов на экземпляр виртуальной машины в моем Cloud Nat. Мы запускаем службы с GKE, и у нас есть настроенный Cloud Nat Gateway для сети.

Существуют ли какие-либо эксклюзивные настройки в GCP, которые могут вызывать проблему?


person Mauricio    schedule 25.01.2021    source источник


Ответы (1)


Я понял, в чем дело. Служба kube-dns была запланирована для узлов, страдающих от нехватки памяти, что привело к удалению и перезапуску kube-dns. За время его отсутствия некоторые запросы не были решены. Чтобы решить эту проблему, я создал пул узлов, эксклюзивный для служб kube-system, затем отредактировал развертывания kube-system и установил nodeSelector, чтобы они всегда планировались для безопасных узлов. После этого проблема прекратилась.

person Mauricio    schedule 25.01.2021