В 2022 году Стив МакГи и Джеймс Брукбэнк из Google опубликовали дорожную карту для проектирования надежности — https://r9y.dev/

Дорожная карта — это простое технологическое дерево, которое может быть реализовано в различных аспектах для достижения соответствующего количества «девяток» для вашей организации.

Дорожная карта разделяет зрелость команды инженеров по надежности на этапы. Организации с инструментами и процессами, описанными на самом низком уровне, должны стремиться к 90,0% времени безотказной работы. Организации с инструментами и процессами, описанными в верхнем уровне, должны стремиться к 99,999% времени безотказной работы.

Дорожная карта помещает обнаружение аномалий на самый высокий и последний этап, соответствующий уровню наблюдаемости, который будет развернут «хорошо спроектированным бизнесом 99,999» как часть автономной системы (системы, обеспечивающей возможности самовосстановления и самозащиты), которая принята ненадежность 5,26 минут/год.

Это долгий путь, но это не обязательно. Хотя обнаружение аномалий само по себе не даст вам три девятки, это компонент, который определенно поможет вам в этом. Одна из причин, по которой он, вероятно, находится на последнем этапе, заключается в том, что авторы делают вывод, что для его реализации требуется множество других этапов, таких как сбор телеметрии и автоматическая подготовка и настройка хоста.

Еще одна причина, по которой он находится на последнем этапе, заключается в том, что, помимо необходимой автоматизированной инфраструктуры и телеметрии, для этого также требуется специализированный и квалифицированный персонал, который может взять на себя внедрение и обнаружение аномалий, и нереально, чтобы более мелкие организации, расположенные ниже по лестнице, имели бы такие возможности. типы сотрудников на этой части пути.

К счастью, для фактического обнаружения аномалий вам действительно нужна только ПОЛОВИНА первого шага на уровне наблюдаемости, ПОКАЗАТЕЛИ ХОСТА. Только с метриками хоста вы можете начать обнаруживать аномалии. Это помогает, если метрики хоста отправляются автоматическим процессом, но даже если ваша инфраструктура не автоматизирована, вы все равно можете настроить свои вещи вручную, чтобы куда-то отправлять метрики хоста.

По иронии судьбы именно метрики хоста позволили Anomify подняться по лестнице проектирования надежности. Мы разработали наше средство обнаружения аномалий специально для того, чтобы обеспечить видимость и мониторинг десятков из тысяч метрик с 430 хостов и их приложений, распределенных по 13 центрам обработки данных по всему миру и обслуживающих до 6,4 млн рекламных запросов в минуту с назначением ставок в реальном времени.

Нам нужно было разработать передовую внутреннюю платформу обнаружения аномалий, чтобы выявлять и понимать изменения в нашей глобально распределенной рекламной платформе. С 4 различными поставщиками облачных услуг и сотнями партнеров и клиентов, которые могли вызвать значительные изменения либо по ошибке, либо намеренно (дружественный огонь) путем запуска исключительного трафика кампании, публикации неправильной вкладки или разделения сети центра обработки данных в Гонконге, обнаружение аномалий было только технология способна следить за всем этим. Это был единственный способ определить, определить и понять векторы изменений на большой, глобальной и очень динамичной платформе, особенно с небольшой операционной командой из двух, а затем и одного человека.

С помощью Anomify вы можете сразу перейти от шага 1 по лестнице проектирования надежности наблюдаемости к частичному выполнению шага 5! Обнаружение аномалий само по себе не даст вам 3 9, но оно даст вам информацию об изменениях в ваших вещах, как если бы вы были организацией 3 9. Виртуальный член вашей команды SRE. Нет команды SRE? Что ж, тогда назовите его своим виртуальным членом команды SRE, который отслеживает все важные для вас изменения.

Вам не нужно быть зрелым, хорошо спроектированным бизнесом, чтобы иметь и использовать обнаружение аномалий, вам просто нужно быть в пути на любом этапе этого пути.

Обнаружение аномалий для всех.
https://anomify.ai — следите за своими показателями