Что такое AIOps и почему AIOps?

Цифровая трансформация обеспечивает масштабные изменения

Почти каждое предприятие сейчас переживает какую-то цифровую трансформацию. Для большинства это выживание, для многих — разрушение и лидерство. Программное обеспечение и пользовательский опыт (UX) — это новое конкурентное преимущество. Управление доступностью и производительностью теперь является вопросом жизни и смерти для ИТ-операций/Devops. Цифровая трансформация гарантирует ИТ-операциям две вещи: больше изменений и масштабирование. Если предприятия хотят двигаться быстрее, они должны разбить все на более мелкие части и позволить командам работать независимо и автономно. Agile, DevOps, облако и микросервисы — это реальные примеры такого сдвига. Agile-разработка означает, что приложения теперь меняются в 10–50 раз чаще в год, а внедрение технологий AWS/Azure/Docker/Meso означает, что среды стали в 10–50 раз больше. Чтобы обеспечить доступность и производительность, предприятия сегодня обычно владеют 10–25 различными инструментами, такими как Splunk, AppDynamics, Dynatrace, Nagios и Solarwinds, для мониторинга своего производственного стека приложений, сети и инфраструктуры. Поэтому эти инструменты часто генерируют миллионы событий и предупреждений каждый день, чтобы ИТ-операторы могли анализировать, сопоставлять, расставлять приоритеты и предпринимать действия. Если сегодня миллионы событий, то завтра будут миллиарды. Вы готовы?

У человеческого мозга есть пределы

Исследования показывают, что человеческий мозг обладает краткосрочной памятью на 7-9 элементов. Люди действительно хорошо умеют извлекать смысл из нескольких точек данных. Это когнитивное ограничение пережило последнее десятилетие в ИТ-операциях, где люди могли иметь дело с сотнями/тысячами событий. Сейчас мы достигли момента, когда даже самые умные люди больше не могут справляться с объемом событий в своей среде.

Введение в алгоритмические ИТ-операции (AIOps)

Вычислительная мощность сегодня быстрая, доступная и дешевая. Программные алгоритмы способны обрабатывать миллионы событий всего за несколько миллисекунд. Более того, сегодняшние алгоритмы действительно способны извлекать смысл из больших наборов данных самостоятельно с участием человека или без него. Это называется контролируемым и неконтролируемым машинным обучением. AIOps — это алгоритмы, дополняющие и помогающие людям в рамках ИТ-операций, а не замена людей.

Вариант использования AIOps: управление инцидентами

AIOps можно применять для автоматизации многих вариантов использования в рамках ИТ-операций. Хорошим примером является управление инцидентами, когда AIOps может принести огромные преимущества по сравнению с вашими существующими инструментами мониторинга и службы поддержки.

Человеческий путь

Сегодня на большинстве предприятий есть команды NOC, службы поддержки или операторов уровня 1, которые вручную анализируют, обнаруживают, сопоставляют, расставляют приоритеты и регистрируют телеметрические события/предупреждения из своей экосистемы инструментов мониторинга. Во многих случаях электронная почта или устаревший диспетчер управления (MOM), такой как IBM Netcool, Microsoft SCOM или CA Spectrum, используются для объединения предупреждений в центральную консоль. Результат? Предупреждают об усталости и рабочем шуме. Вот почему большинство отделов ИТ-эксплуатации до сих пор пытаются обнаружить инциденты и их влияние на бизнес до того, как клиенты позвонят в службу поддержки. У групп операторов просто не хватает времени в сутках, чтобы проактивно анализировать все события в ручном режиме. Некоторые предприятия фактически полностью отключают оповещения о мониторинге только для того, чтобы уменьшить рабочий шум. Поэтому неудивительно, что клиенты по-прежнему сообщают о почти двух третях инцидентов. Пропущенные инциденты — это только вершина айсберга. Отсутствие корреляции событий/предупреждений означает, что операторы обычно анализируют события/предупреждения независимо от других операторов, что приводит к дублированию заявок, эскалации и снижению производительности.

Путь AIOps

Современные алгоритмы могут автоматизировать процесс анализа и корреляции данных о событиях. На самом деле то, на что у людей уходят часы, можно сделать за миллисекунды, когда оповещения разворачиваются в вашей среде. Миллионы событий могут быть автоматически сокращены до десятков инцидентов с помощью программных алгоритмов, которые могут дедуплицировать, заносить в черный список и сопоставлять потоки событий в режиме реального времени. Эта аналитическая информация в режиме реального времени теперь позволяет ИТ-операциям работать на опережение 24 часа в сутки, 7 дней в неделю. Алгоритмы позволяют людям сосредоточиться на десятках инцидентов вместо миллионов событий/предупреждений, которые перегружают их каждый день. Этот уровень автоматизации означает, что инциденты могут быть обнаружены мгновенно, без необходимости вручную соединять точки между различными инструментами и хранилищами. AIOps также может автоматизировать регистрацию инцидентов, уведомления, повторное использование знаний и поддержку принятия решений. Например, алгоритмы могут составить план каждого наблюдаемого инцидента и зафиксировать все знания племени, которые использовались для разрешения этого инцидента. Если подобный инцидент будет наблюдаться в будущем, те же алгоритмы могут быть использованы для автоматизации повторного использования знаний и поддержки принятия решений. Люди по-прежнему играют центральную роль в управлении инцидентами, AIOps просто повышает их производительность, скорость реагирования и ценность за счет автоматизации утомительных ручных задач, которые они выполняют каждый день. Алгоритмы сами по себе не могут разрешить инциденты или влияние на бизнес.

Инновационное понимание платформ алгоритмических ИТ-операций

Платформы алгоритмических ИТ-операций позволяют руководителям I&O удовлетворять проактивные, личные и динамичные потребности цифрового бизнеса, преобразуя саму природу ИТ-операций с помощью беспрецедентного автоматизированного анализа.

Основные выводы

  • Человеческие возможности, дедуктивное мышление и ограниченные возможности анализа данных не позволяют ИТ-операциям достичь уровня гибкости и понимания, необходимого для поддержки инициатив цифрового бизнеса.
  • Текущие и будущие требования к инфраструктуре и операциям (I&O) требуют конкретных стратегических инвестиций в платформу, предназначенную для сбора и анализа данных из любого источника с помощью все более интеллектуальных машин.
  • На сегодняшний день большинство инвестиций I&O в платформенные технологии алгоритмических ИТ-операций (AIOps) (аналитика ИТ-операций, большие данные, машинное обучение и т. д.) носили тактический и/или изолированный характер, что ограничивало их потенциал.
  • Большинство команд I&O еще не обладают навыками или опытом, необходимыми для эффективной работы с платформами AIOps.

Рекомендации

  • Сделайте стратегические инвестиции в платформу AIOps, которая будет поддерживать основные функции ИТ-операций (мониторинг, автоматизация, служба поддержки и другие).
  • Сбалансируйте простоту использования с взаимозаменяемостью возможностей платформы (сбор данных, хранение, аналитические механизмы, представление и т. д.), чтобы избежать блокировки.
  • Инвестируйте в развитие навыков и внесение организационных изменений, необходимых для получения выгоды от платформы AIOps.

Предположение о стратегическом планировании

К 2019 г. 25 % глобальных предприятий будут стратегически внедрять платформу AIOps, которая поддерживает две или более основные функции ИТ-операций, по сравнению с менее чем 5 % сегодня.

Анализ

Слишком долго управление ИТ-операциями (ITOM) представляло собой ряд проблем «больших данных» с точки зрения масштаба и сложности, которые решались с помощью множества, часто изолированных и в основном ручных тактик и инструментов «малых данных». Текущие и будущие потребности ITOM не могут быть удовлетворены без полного использования тех же самых передовых аналитических технологий, которые используются для поддержки наиболее требовательных бизнес-приложений (обнаружение мошенничества) и предоставления потребителям дифференцированного цифрового опыта (доставка контента, социальные сети). Однако для этого необходимо отказаться от технологических, поведенческих и процедурных ограничений, накопившихся за десятилетия, в пользу основанного на данных, алгоритмического, совместного и даже экспериментального подхода к ITOM. Это переосмысление функций ITOM на основе платформы, которая позволяет проводить анализ данных в реальном времени и в прошлом из любого источника с помощью машин, представляет собой как радикальное изменение подхода, так и возможности.

Определение

Платформы AIOps используют большие данные, современное машинное обучение и другие передовые технологии аналитики для прямого или косвенного улучшения функций ИТ-операций (мониторинг, автоматизация и служба поддержки) с упреждающим, личным и динамическим анализом. Платформы AIOps позволяют одновременно использовать несколько источников данных, методов сбора данных, аналитических технологий (в режиме реального времени и глубоких) и технологий представления (см. рис. 1).

Описание

Платформы AIOps состоят из нескольких слабо связанных уровней, которые занимаются сбором и хранением данных, аналитическими механизмами (в режиме реального времени и глубокими), визуализацией/UI и интеграцией с другими приложениями через API, как показано на рис. 2.

Уровень представления платформы AIOps поддерживает несколько методов представления и взаимодействия, включая, помимо прочего, как визуализацию, так и обработку естественного языка (NLP) в качестве полезных интерфейсов. Слой аналитического обучения платформы AIOps поддерживает как глубокие аналитические возможности (глубокие нейронные сети, глубокие Q-сети, глубокое кодирование и т. д.), которые анализируют большие наборы данных в поисках вероятных ответов на невероятно сложные задачи (например, распознавание изображений и описание ) и аналитические возможности в режиме реального времени, которые могут обрабатывать большие объемы потоковых данных (например, метрические данные временных рядов) в режиме реального времени. В обоих случаях для облегчения анализа применяется множественное машинное обучение и другие аналитические методы.

Хранилище данных чаще всего поддерживается комбинацией нереляционных хранилищ данных (таких как MongoDB и другие базы данных NoSQL) и высокораспределенных систем обработки данных и управления файлами (таких как Hadoop). Сбор данных в основном осуществляется посредством пересылки и/или импорта машинных данных (журналы, документация), потоковой передачи данных (события, метрики и т. д.) или интеграции API с другими инструментами, которые собирают и/или генерируют данные в ходе своей обычной работы.

Примеры источников данных, анализируемых платформами AIOps, включают:

  • Данные, изначально генерируемые ИТ-инфраструктурой и приложениями (например, потоки, журналы, пакеты, потоки и т. д.)
  • • Данные, созданные инструментами, используемыми в ходе разработки приложений и инициатив DevOps (например, инструменты сборки/непрерывной интеграции [CI], управление исходным кодом, отслеживание проблем/ошибок, тестирование и т. д.)
  • Данные, собранные или сгенерированные инструментами ITOM (например, агенты или другие инструменты, механизмы обнаружения, артефакты автоматизации, состояния конфигурации, документация или другие элементы знаний, взаимодействия и запросы службы поддержки и т. д.)
  • Данные, собранные или сгенерированные с помощью инструментов управления идентификацией и доступом, бизнес-приложений, социальных сетей и платформ для совместной работы, механизмов анализа настроений и Интернета вещей.
  • Синдицированный контент от государственных и частных внешних (сторонних) поставщиков знаний (например, государственных и некоммерческих ассоциаций, потребительских приложений, коммерческих поставщиков данных)

Расширяемость платформ AIOps и идеальная слабая связь уровней источника данных, сбора, хранения, анализа и представления помогают избежать привязки к поставщику и сохранить возможность добавлять новые возможности по мере их появления. Подход платформ AIOps, не зависящий от источника данных, также позволяет использовать его уникальным гибким образом, дополняя и улучшая другие инвестиции в инструменты ITOM, сводя к минимуму их потенциал блокировки. Хотя платформы AIOps могут состоять в основном из программных компонентов с открытым исходным кодом, ожидается, что большинство предприятий будут либо собирать, либо приобретать решения, включающие как открытое, так и коммерческое программное обеспечение. Многие из наиболее значимых технологий больших данных, используемых сегодня, либо уходят своими корнями в открытый исходный код (Elasticsearch, Hadoop, Cassandra, Spark и другие), либо с тех пор были представлены сообществу разработчиков открытого исходного кода. Ожидается, что эта тенденция сохранится, так что предприятия должны ожидать, что технологии с открытым исходным кодом будут играть решающую роль в платформах AIOps в обозримом будущем (пять лет или дольше), позволяя платформам использовать преимущества инновационных технологий по мере их появления. Расположение и способ доставки (локально, SaaS или гибрид) каждого уровня и/или составляющих его технологий можно рассматривать независимо друг от друга; однако их следует рассматривать в контексте целостной стратегии платформы AIOps, поскольку сложность, производительность и затраты будут значительно различаться.

Преимущества и использование

Платформы AIOps предоставляют расширенные аналитические возможности для нескольких дисциплин ИТ-операций как прямым, так и дополнительным образом. Делая это на скоординированной, централизованной, но гибкой платформе, они предоставляют возможность непрерывно предоставлять упреждающую информацию, основанную на автоматизированных алгоритмических возможностях обучения, анализирующих беспрецедентный объем данных. Упреждающая информация, предоставляемая специалистам по ИТ-операциям с помощью платформ AIOps, обычно принимает формы помощи человеку (упрощая, ускоряя и/или улучшая направленный анализ) и расширяя человеческие возможности (используя автоматический анализ для обнаружения ранее невидимых идей). Предоставление информации в обеих формах позволяет платформам AIOps поддерживать несколько уровней навыков и поощрять внедрение в самых разных случаях использования. Например, эксперты в предметной области часто пользуются преимуществами вспомогательных возможностей, которые помогают им получить ответы на диагностические вопросы, которые они умеют задавать на основе своего опыта. Напротив, универсальные специалисты по эксплуатации, архитекторы и бизнес-специалисты обычно тяготеют к руководству, которое обеспечивают возможности расширения (см. Таблицу 1).

Максимальное использование возможностей платформы AIOps будет достигнуто за счет повсеместного использования возможностей дополнения и помощи как напрямую, через приложения, созданные на платформе, которые могут обеспечить целостное представление о функциях ITOM, так и косвенно, за счет интеграции с инструментами, используемыми в каждой функции ITOM. .

Примером приложения, созданного на платформе AIOps и охватывающего несколько функций ITOM, является действенный комплексный цикл обратной связи для приложения, поставляемого DevOps, для обеспечения его постоянного улучшения. Некоторые корпоративные команды DevOps сделали именно это, создавая приложения этой области для данного приложения, которые включают данные из инструментов мониторинга, автоматизации, службы поддержки и разработки приложений с использованием инструментов платформы AIOps от Splunk, Sumo Logic, Elastic и других. Ключом к решению использовать платформу AIOps является то, что платформы AIOps предоставляют больше, чем просто метод получения информации обо всех действиях, связанных с созданием, производительностью и развитием приложения (с использованием различных источников данных, как указано в разделе «Описание»). ). Важно отметить, что они также добавляют возможность как машинам, так и людям учиться на поведении людей и задействованных систем. Эти возможности обучения, основанные на широкой перспективе, действительно полезны, если рассматривать их в целом, но они также могут представлять значительную ценность при использовании в рамках конкретных функций ITOM. Ниже приведены лишь примеры вариантов использования в основных функциях ИТ-операций, которые иллюстрируют возможности расширения и поддержки, предоставляемые платформами AIOps.

Автоматизация

Интеллектуальная адаптивная (эвристическая) автоматизация — расширение: автоматизированные рабочие процессы можно сделать «умнее», если они будут использовать преимущества детерминированных явных знаний, человеческих неявных знаний и поведенческого анализа на основе AIOps для достижения лучших результатов в динамических условиях.

Машинно-генерируемые и управляемые автоматы — дополнение: платформы AIOps можно использовать для выявления моделей положительного поведения, которые можно автоматизировать, кодифицировать это поведение в виде автоматизированных задач и рабочих процессов, инициировать эти задачи и рабочие процессы при определенных условиях, а также развивайте эти автоматизированные задачи и рабочие процессы на основе результатов.

Мониторинг

Автоматическое прогнозирование поведения — расширение: поведение приложений, инфраструктуры и пользователей можно наблюдать и анализировать на постоянной основе, чтобы прогнозировать вероятные будущие события, которые могут повлиять на доступность и производительность.

Причинно-следственный анализ — помощь и дополнение: сочетание аналитических подходов (байесовского, грейнджеровского/временного и т. д.) можно применить к широкому набору данных, чтобы предложить и сравнить несколько вероятных основных причин проблем с доступностью и производительностью.

Сервисная поддержка

Интеллектуальное уведомление — помощь и расширение возможностей. Конечные пользователи и ИТ-персонал могут быть заблаговременно уведомлены о текущих или потенциальных нарушениях обслуживания, которые могут повлиять на них или требуют их особого внимания. Интеллектуальная совместная работа — дополнение. Рабочие пространства для совместной работы или коммуникационные потоки могут быть дополнены контекстуально релевантными артефактами знаний (база знаний/статьи часто задаваемых вопросов, документация по продуктам, ссылки на сайты поддержки и т. д.), рекомендациями или предложениями, которые динамически корректируются по ходу взаимодействия.

Информационные панели бизнес-ценности

Обнаружение бизнес-возможностей — Расширение: анализируя как ИТ-операционные, так и бизнес-данные, можно обнаружить модели поведения, дающие положительные результаты для бизнеса.

Динамическая поддержка принятия решений — помощь и дополнение. При разработке сценариев решений могут использоваться рекомендации платформы AIOps, основанные на анализе в режиме реального времени и исторических данных как об эксплуатации ИТ, так и о поведении бизнеса.

Платформы AIOps также могут играть важную роль в операциях ИТ-безопасности и стратегиях бизнес-аналитики, предоставляя быстрый доступ к обширным данным и контексту, созданным в ходе ИТ-операций.

На сегодняшний день технологии платформы AIOps чаще всего применялись для поддержки усилий по мониторингу доступности и производительности. Это связано с рядом факторов, в первую очередь с потребностью групп мониторинга в быстром выполнении часто очень сложных диагностических задач, для которых идеально подходят технологии AIOps. Однако по мере того, как задачи ИТ-операций становятся все более автоматизированными, а роли и обязанности продолжают сближаться — главным примером является DevOps — работа по анализу становится растущей частью всех функций ИТ-операций. Эта конвергенция, в свою очередь, приводит к растущей потребности в возможностях платформы AIOps, над удовлетворением которых будут продолжать работать поставщики, ориентированные как на платформу AIOps, так и на домен (технологии и дисциплины). Поставщики, ориентированные на предметную область, будут продолжать добавлять технологии платформы AIOps в различных формах, стремясь стать доминирующим поставщиком платформы, а текущие поставщики, ориентированные на платформу AIOps, будут продолжать добавлять возможности, которые делают их все более жизнеспособной альтернативой инструментам, ориентированным на предметную область.

Риски

Основной риск, связанный с инвестициями в платформы AIOps, отражает риск большинства усилий по преобразованию — чрезмерный акцент на технологическом компоненте с недостаточным вниманием к изменениям в навыках, ролях, показателях и процессах, необходимых для получения ценности от технологии. Во-вторых, инвестиции в платформу однозначно подвержены как последствиям расширения масштабов, так и «взрывным» внедрениям, которые в лучшем случае не оправдывают нереалистичных ожиданий, а в худшем — негативно влияют на текущие операции. По-прежнему крайне важно, чтобы, хотя стратегия платформы AIOps была всеобъемлющей по своей широте, ее реализация должна быть поэтапной.

Существует значительный риск перепутать ценность расширения и помощи платформы AIOps с ценностью замены навыков/людей, и эта путаница, в свою очередь, используется для принятия инвестиционных решений. В обозримом будущем большая часть ценности, достигаемой за счет использования возможностей платформы AIOps, будет реализована за счет расширения возможностей персонала ИТ-операций за счет расширения и помощи, а не за счет их замены.

Лидеры I&O (и предприятия, которых они поддерживают), которые не инвестируют в платформы AIOps, рискуют стать бесполезными, поскольку их навыки и инструменты не поспевают за экспоненциально растущей сложностью операций и спросом на упреждающие, персональные и динамичные услуги. Эта растущая неактуальность не только влияет на способность руководителей I&O конкурировать за внутреннее и внешнее (вне ИТ-бюджета) финансирование, но также может поставить под угрозу способность предприятия конкурировать как бизнес.

Рекомендации

Сделайте стратегические инвестиции в инициативу платформы AIOps, которая будет поддерживать основные функции ИТ-операций (мониторинг, автоматизация, служба поддержки и т. д.). Большинство корпоративных инвестиций в технологии, которые можно использовать как часть платформы AIOps, были сделаны тактическим, фрагментарным образом, что значительно ограничивает их потенциальную ценность. Чтобы получить максимальную отдачу, предприятия должны сделать стратегические и всесторонние инвестиции в инициативу платформы AIOps, которая будет реализована поэтапно. Однако руководителям I&O следует помнить, что хотя платформа AIOps включает в себя все возможности, описанные на схеме логической архитектуры на рис. 2, первоначальные варианты использования, используемые технологии и поставщики, а также порядок реализации этих возможностей будут различаться. от организации к организации.

Сочетайте простоту использования с взаимозаменяемостью возможностей платформы (сбор данных, хранение, аналитические механизмы, представление и т. д.), чтобы избежать блокировки. Многие технологии платформы AIOps и их взаимодействие могут быть довольно сложными для реализации и использования. Например, некоторые системы больших данных могут потребовать значительных усилий для определения размера, масштаба и надлежащего администрирования для достижения ожидаемой производительности. Некоторые методы машинного обучения могут потребовать серьезного построения модели и обучения для достижения ожидаемых результатов. Несколько поставщиков отреагировали на эту проблему, объединив и/или объединив различные функциональные уровни платформ AIOps во имя простоты (например, XpoLog, Moogsoft, BigPanda, Rocana, Splunk, Sumo Logic и другие). Недостаток этой связи заключается в том, что она дает поставщикам возможность создавать технические зависимости от продуктов этих поставщиков. Важно знать, что блокировка может быть спроектирована на всех функциональных уровнях платформы AIOps, и покупатель несет ответственность за то, чтобы этот риск был спланирован.

Инвестируйте в развитие навыков и внесение организационных изменений, необходимых для получения выгоды от платформы AIOps. Платформы AIOps часто состоят из новейших, передовых и устоявшихся технологий, каждая из которых предъявляет соответствующие требования к навыкам, особенно к науке о данных, которой часто не хватает в ИТ-командах. Большинству корпоративных ИТ-команд придется вложить значительные средства в создание и приобретение навыков, необходимых для использования преимуществ платформ AIOps. Планы поиска навыков должны быть направлены на сбор и/или развитие навыков в области науки о данных, статистики, машинного обучения, моделирования операций и математических навыков, в дополнение к опыту использования инструментов расширенной аналитики. В рамках стратегического всеобъемлющего плана инвестиций в AIOps эти инвестиции в навыки должны быть обеспечены организационными изменениями, результатом которых станет команда специалистов AIOps. Без такого уровня изменений инициативы платформы AIOps, скорее всего, не принесут ожидаемых результатов.

Репрезентативные поставщики

Поставщики, предлагающие возможности машинного обучения и работы с большими данными в одном продукте платформы AIOps: Hewlett Packard Enterprise (HPE), Rocana, Sumo Logic, XpoLog Поставщики, предлагающие одну или несколько возможностей платформы AIOps: BigPanda, BMC, Elastic, Evolven, ExtraHop, Graylog, IBM , Moogsoft, Prelert, Splunk, VMware Дополнительный вклад в исследование и обзор: Уилл Каппелли, Вивек Бхалла, Ян Хед

Доказательства

Дополнительные данные для этого исследования были получены из примерно 200 запросов клиентов за последние шесть месяцев.