В контексте лексики консалтинговых компаний платформы AIOps (Artificial Intelligence for IT operations, искусственный интеллект для ИТ-операций) нацелены на повышение эффективности приема решений персоналом, сопровождающим инфраструктуры предоставления цифровых услуг. Более простым языком – AIOps призван автоматизировать рутинные операции служб эксплуатации и снизить риск человеческого фактора, возложив принятие решений и выполнение необходимых действий на программы, основанные на алгоритмах, машинном обучении и искусственных нейронных сетях. Разнообразие и интенсивность использования цифровых сервисов в любой современной компании постоянно растет, в связи с этим руководителям по сопровождению и развитию цифровой инфраструктуры важно понимать и использовать AIOps подходы: штат сотрудников невозможно расширять теми же темпами, кроме того персонал все равно будет не в состоянии уследить за быстро изменяющимися инфраструктурами и приложениями.
Настоящий материал посвящен обсуждению основных понятий и подходов AIOps, современного состояния и ключевых тенденций, даются некоторые рекомендации руководителям подразделений I&O (Infrastructure & Operations) организаций по внедрению платформ AIOps. Приводятся определение и описание рынка в отношении обсуждаемой проблематики, рассматриваются ключевые тенденции, производится актуальный анализ рынка, даются список ключевых поставщиков AIOps–решений и рыночные рекомендации для организаций.
1. Введение
Современное состояние и ключевые тенденции
- Количество внедрений AIOps-платформ в организациях разных масштабов и областей деятельности растет высокими темпами. Руководители подразделений I&O (Infrastructure & Operations, инфраструктура и операции) планируют постковидную среду, в которой доминируют практические результаты, а не “амбициозные цели”.
- Предложения AIOps-платформ делятся на две категории: доменно-ориентированные решения и универсальные, доменно-агностические решения (по определению аналитиков Gartner). Первые применяют AIOps для конкретного домена (под “доменом” здесь и далее понимается инфраструктура, сеть, облако, инструменты мониторинга сети, приложений, ведения журналов и т.д.), вторые работают в разных доменах, используя широкий спектр данных, обучаясь на них для принятия более точных решений и совершения необходимых действий. Требования к повышенной гибкости для обработки разнообразных наборов данных оказывают значительное влияние на рынок и смещают вектор развития AIOps-платформ в направлении функциональности, не зависящей от конкретного домена.
- Организации начали внедрять AIOps-платформы с целью обеспечения конкурентоспособности с некоторыми категориями традиционных инструментов мониторинга с перспективой заменить их. Например, мониторинг IaaS (Infrastructure as a Service, инфраструктура как сервис) и наблюдаемость (observability) зачастую реализуются целиком с помощью AIOps-платформ, в особенности если вся ИТ-деятельность организации базируется на облачных решениях.
- Организации расширяют использование AIOps в различных аспектах управления ИТ-операциями (IT Operations Management, ITOM) и совершенствуют свои варианты использования в актуальных методологиях DevOps (Development & Operations, “разработка и эксплуатация”) и SRE (Site Reliability Engineering, “обеспечение надежности системы”).
Некоторые рекомендации
Руководителям подразделений I&O организаций, сфокусированным на инфраструктуре, операциях и управлении облачными платформами, целесообразно:
- Обеспечить приоритет практических результатов перед “желанными целями”, приняв поэтапный подход, который начинается с замены основанной на правилах аналитики событий и расширяется до ориентированных на предметную область рабочих процессов, таких как диагностика приложений и сети.
- Выбирать между доменно-ориентированными и доменно-агностическими реализациями AIOps, позволяя варианту использования определять подход. Задействовать доменно-ориентированные функции AIOps, встроенные в инструмент мониторинга, для одноразового использования, и развернуть автономное решение, которое не зависит от домена, с дорожной картой, охватывающей несколько вариантов.
- Обеспечить автоматизацию задач, управление знаниями и анализ изменений, выбрав AIOps-платформу, которая поддерживает двунаправленную интеграцию с инструментами ITSM (IT Service Management, управление ИТ-услугами). Избегать инструментов, предоставляющих только базовые возможности поиска и визуализации.
- Обеспечить непрерывную аналитику в рамках процессов ITOM, поддерживая следующие три системообразующих аспекта AIOps: наблюдение, участие и действие.
2. Определение рынка
Платформы AIOps удовлетворяют потребности руководителей подразделений I&O в поддержке операций, сочетая функции хранения и аналитики данных для предоставления релевантной информации заинтересованным категориям пользователей на основе данных, сгенерированных ИТ в ответ на цифровую трансформацию. Такая возможность является лишь частью конвейера, включающей в себя прием и хранение данных, за которыми следуют обработка и анализ с выходом на уровень визуализации. Аналитические возможности сочетают статистические методы, технологии искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML), но, учитывая уровень подготовки пользователей, интерфейс взаимодействия с инструментами AI/ML для специалистов I&O минимален или отсутствует.
3. Описание рынка
Платформы AIOps улучшают широкий спектр устоявшихся ИТ-практик, включая I&O, DevOps, SRE и управление сервисами. Однако наиболее содержательные результаты достигаются в области I&O и включают в себя обнаружение аномалий, диагностическую информацию, корреляцию событий и поиск корневых причин проблем (Root Cause Analysis, RCA) для улучшения мониторинга, менеджмента услуг и задач автоматизации.
К основным функциям платформ AIOps принято относить:
Сбор данных
Платформа AIOps может принимать, индексировать и нормализовывать события или измерения от нескольких доменов, поставщиков или источников данных, в том числе инфраструктуру, сети, приложения, облако или существующие инструменты мониторинга (для междоменного анализа) (см. Примечание 2 после основного текста статьи). Платформа должна дополнительно обеспечивать аналитику данных с использованием ML как минимум в двух аспектах:
- анализ данных в режиме реального времени в момент их приема (потоковая аналитика)
- исторический анализ сохраненных данных
Топология
Платформы AIOps обнаруживают и собирают единую топологию ИТ-активов, включая приложения, в разных доменах. Топология может включать физическую близость, логическую зависимость или другое измерение, отражающее взаимосвязь между ИТ-активами и услугами.
Корреляция
Платформа AIOps осуществляет корреляцию и объединение событий в доменах или источниках телеметрии, снижая степень ненужного вмешательства человека. Корреляция объединяет время и топологию, иные признаки для группировки связанных событий.
Идентификация
Платформа AIOps обрабатывает события и данные телеметрии для обнаружения или прогнозирования важных событий или инцидентов. Платформа постоянно учится и уточняет отдельные шаблоны важных событий на основе ввода оператора и механизмов обратной связи.
Коррекция
Платформа AIOps постоянно учится и улучшает связи между каждым важным событием и оперативной реакцией на него либо с помощью явного указания оператора, либо путем наблюдения. Платформа AIOps может предложить рекомендацию, автоматизировать ответ самостоятельно или активировать внешнюю систему автоматизации.
AIOps – это не просто система хранения и извлечения данных, она также не ограничена возможностями анализа трендов, прогнозирования и способностью запрашивать обширные наборы данных.
Цель AIOps – контролировать и повышать качество получаемых данных для обеспечения руководителям подразделений I&O возможностей управления несколькими вариантами использования, относящимися к соответствующей практике или персоне. Например, обнаружение шаблонов может помочь спрогнозировать образ действий, отношения между ИТ-объектами и сравнительное поведение (ИТ-артефактов, пользователей и агентов) для выявления аномалий и предоставления соответствующего контекста владельцам бизнеса. Аналитика также облегчает автоматизированное наблюдение, упрощает определение основных причин событий и позволяет выполнять автоматические действия для решения выявленных проблем (см. рисунок 1).
Рисунок 1: AIOps-платформа, обеспечивающая непрерывную аналитику
в рамках мониторинга ИТ-операций (ITOM)
4. Тенденции рынка
Переход рынка к доменно-агностическим AIOps
Независимые от домена платформы AIOps становятся отдельным рынком, отличным от доменно-ориентированных решений (см. Примечание 3). Это связано с гибкостью приема все более разнообразных наборов данных в рамках прогрессивных планов развития на период от 3 до 5 лет. Сценарии использования в планах не фокусируются только на аномалиях и включают анализ поведения, взаимодействие с клиентами и выявление базовых возможностей. Будущие руководства по рынку будут в значительной степени ориентированы на AIOps, не зависящие от конкретного домена.
По мере внедрения AIOps организациям будет требоваться единая, доменно-агностическая платформа, для I&O, DevOps, SRE и, часто – для практики обеспечения безопасности.
Аналитическая компания Gartner наблюдает за тем, как руководители подразделений I&O обсуждают ключевые показатели эффективности (Key Performance Indicators, KPI) и информационные панели, имеющие отношение к исполнительному уровню. Во всех таких сценариях проявляется четкое различие в направленности предметно-ориентированных инструментов на обнаружение аномалий и сокращение ложных срабатываний. AIOps стал определяющей тенденцией на многих доменно-ориентированных рынках.
AIOps: обязательная функция в доменно-ориентированных инструментах
Доменно-ориентированные AIOps распространились на несколько сегментов рынка ITOM, включая рынки инструментов наблюдения и автоматизации. На некоторых рынках это – определяющая черта, например:
- Возможности AIOps – одна из существенных характеристик современных инструментов APM (Application Performance Monitoring, см. “Магический квадрант” для мониторинга производительности приложений).
- На рынках ITIM (IT Infrastructure Management, управление ИТ-инфраструктурой) и NPMD (Network Performance Monitoring and Diagnostics, мониторинг и диагностика производительности сети) аналитика считается ключевой функцией, но поставщики начали предоставлять возможности AIOps для поддержки различных задач, таких как улучшенное понимание и диагностика.
- Многие поставщики решений ITSM включили возможности AIOps за счет инвестиций во внутренние разработки или партнерства с поставщиками платформ AIOps (см. “Магический квадрант” для инструментов управления ИТ-услугами). Концепция AITSM (ITSM driven by Artificial Intelligence, управление ИТ-услугами на основе искусственного интеллекта) обеспечивает эффективность, результативность и сокращение ошибок персонала подразделений I&O за счет применения контекста, советов, действий и интерфейсов AI к инструментам ITSM (см. Использование 4 доменов AITSM для развития инструментов и практик ITSM).
Доменно-ориентированные подходы к AIOps подходят для организаций с ограниченным разнообразием данных (то есть только с несколькими точечными решениями), которые отдают приоритет небольшому количеству сфокусированных вариантов использования. Такие организации имеют ограниченные потребности или возможности одновременного просмотра данных в нескольких хранилищах. По мере роста вариантов использования организации, вероятно, перейдут на инструменты, не зависящие от домена.
Поставщики, сконцентрированные исключительно на доменно-ориентированных подходах, будут иметь успех у клиентов, которые не готовы воспользоваться преимуществами инструментов, не зависящих от конкретного домена. Однако по мере того, как все больше организаций будут стремиться перейти на доменно-агностические варианты, поставщики, которые фокусируются исключительно на доменно-ориентированных технологиях, окажутся за бортом актуальных рыночных дискуссий.
Постоянный интерес и рост
AIOps продолжает расти и оказывать влияние на общий рынок ITOM, при этом оценочный размер рынка составляет от 900 млн до 1,5 млрд долларов в 2020 году, а совокупный годовой темп роста – около 15% в период с 2020 по 2025 год (см. Карта рыночных возможностей: управление ИТ-операциями, по всему миру). Внедрение и направление находятся под сильным влиянием двух отдельных, но, в конечном итоге, связанных областей:
- цифровая трансформация бизнеса
- переход от реактивного к проактивному реагированию на проблемы
Цифровая трансформация бизнеса стимулирует рынок AIOps, поскольку все больше бизнес-операций оцифровываются, а анализ растущих объемов данных становится все более важным и сложным. Когда объемы данных достигают или превышают гигабайты в минуту в десятках или более доменах, человек больше не в состоянии анализировать данные вручную.
В условиях, когда организации продолжают осуществлять цифровую трансформацию, они больше не могут позволить себе роскошь реагировать на проблемы после их возникновения. Вместо этого организации должны становиться проактивными и решать потенциальные проблемы до того, как они повлияют на пользовательский опыт.
Рынок AIOps продолжает двигаться к более широким и лучшим решениям для этих двух проблем, сохраняя при этом разделение между доменно-ориентированными и доменно-агностическими подходами (см. Примечание 3). Будущее положение, когда единая платформа AIOps пытается заменить инструменты, ориентированные на конкретный домен, имеет больше проблем, чем решений. Gartner ожидает увидеть все более специализированные слои, включая аналитику и обученные модели, встроенные в устройства. В конечном итоге аналитика будет интегрирована в различные технологии мониторинга, составляющие доменно-ориентированные AIOps, до такой степени, что такие AIOps будут включены как часть определения на нескольких рынках мониторинга.
Кроме того, некоторые поставщики апробируют гибридный подход между доменно-агностическим и доменно-ориентированным подходом, предоставляя независимые от домена функции AIOps поверх своего разрозненного инструментария. Во все более динамичной ИТ-архитектуре корреляция событий на основе правил уступает место корреляции на основе AI из-за скорости, с которой необходимо обновлять правила корреляции (см. раздел “Использование AIOps для основанного на данных подхода в целях улучшения аналитических данных, полученных с помощью инструментов мониторинга ИТ-операций”).
Низкие барьеры для входа
Превращение технологий с открытым исходным кодом в товар снизило входной барьер в эту область для многих поставщиков, предоставив множество вариантов инструментов для сбора, хранения и визуализации данных. Относительная простота развертывания и интеграции этих доменно-агностических технологий получения, хранения и отображения данных послужила толчком к разработке или усовершенствованию продуктов многими поставщиками, ориентированными на конкретные домены, включая системных интеграторов и поставщиков управляемых услуг. Примеры инструментов с открытым исходным кодом для доменно-агностического сбора данных по метрикам, трассировкам и журналам – Prometheus, Elastic Beats, Jaeger и Fluentd. В отношении визуализации данных, многие реализации используют пакет Grafana, независимо от того, где данные были исходно сохранены.
Несмотря на то, что платформы AIOps еще не вполне развились, при правильном сценарии использования они уже считаются весьма ценным инструментом в организациях и сохраняются в долгосрочной перспективе (см. рисунок 2).
Рисунок 2. Планы организаций по дальнейшему использованию
CMP (Cloud Management Platforms, платформы управления облаком) и AIOps
5. Анализ рынка
Хотя технология AIOps существует и развивается уже несколько лет, для ее успешного развертывания требуются существенные время и усилия, в том числе составление конечным пользователем структурированного плана развития (дорожной карты). Реализации обычно сталкиваются с рядом проблем, включая прием данных, обеспечение контекстуально релевантного анализа и длительное время окупаемости. Время окупаемости многих развертываний инструментов AIOps измеряется месяцами или даже годами, что привело к неудовлетворенности и определенному разочарованию в сегменте рынка. И все же организации не должны сомневаться:
У ИТ-операций нет будущего без AIOps. Это связано с быстрым ростом объемов данных и темпов изменений (о чем свидетельствует скорость доставки приложений и бизнес-моделей, управляемых событиями), которые не могут ждать людей, чтобы получить информацию.
Человек просто не в состоянии разобраться в тысячах событий в секунду, генерируемых ИТ-системами.
Для получения более четкого представления о том, как развивается рынок и где находятся поставщики относительно друг друга, предлагается рассмотреть следующие атрибуты:
- прием и обработка данных
- аналитика машинного обучения
- улучшение
Прием и обработка данных
Платформы AIOps должны иметь возможность принимать данные “в состоянии покоя” (исторические) и “данные в движении” (в реальном времени, потоковые). Эти платформы позволяют принимать, индексировать и хранить журналы, данные о событиях, метрики, трассировки, а также данные графиков и документов (см. Примечание 2).
Инструменты для ИТ-операций должны анализировать данные непосредственно в момент приема в режиме реального времени, не требуя их сохранения в базе данных перед анализом. Они также должны обеспечивать корреляционный анализ нескольких потоков данных в реальном времени и исторических данных.
Аналитика машинного обучения
Платформы AIOps используют следующие типы аналитических подходов:
- Статистический, вероятностный анализ. Сочетание одномерного и многомерного анализа, включая использование корреляции, кластеризации, классификации и экстраполяции метрик, полученных от ИТ-объектов.
- Автоматическое обнаружение и прогнозирование закономерностей. Обнаружение шаблонов, кластеров или групп, которые неявно описывают корреляции в исторических и/или потоковых данных; затем эти шаблоны можно использовать для прогнозирования инцидентов с различной степенью вероятности.
- Обнаружение аномалий. Использование шаблонов, обнаруженных предыдущими компонентами, для определения нормального поведения, а затем – для выявления отклонений от этого поведения, как одномерного, так и многомерного. Помимо простого обнаружения выбросов, они должны коррелироваться с влиянием на бизнес и другими параллельными процессами, такими как управление релизами, чтобы быть однозначно полезными, а не просто создавать дополнительный шум из оповещений (см. Дополнение к принятию решений в DevOps с использованием методов AI).
- Определение вероятной причины. Сокращение сети корреляций, установленных автоматическим обнаружением шаблонов и приемом графических данных, для определения цепочек причинно-следственных связей.
- Топологический анализ. Платформы AIOps могут использовать приложения, сети, инфраструктуру или другие топологии для обеспечения контекстуального анализа. Получение шаблонов из данных в рамках топологии позволит установить релевантность и проиллюстровать скрытые зависимости. Использование топологии как части определения причинно-следственной связи может значительно повысить ее точность и эффективность.
- Предписывающие рекомендации. Предложение решений для решения проблемы, которые могут быть основаны на базе данных исторических решений (“знания племен”) повторяющихся проблем или определены с помощью краудсорсинга.
Улучшение
По мере развития технологии пользователи смогут использовать предписывающие рекомендации платформы, что позволит перейти непосредственно к действиям (см. Примечание 4). Соответствующие шаги показаны на рисунке 3.
Рисунок 3. Будущее автоматизации с помощью AI – сортировка и устранение проблем
Автоматизированный процесс с замкнутым циклом, известный как “автономный ITOM”, очень ожидаем рынком, но все еще находится в стадии развития. В коммерческих инструментах было замечено очень мало предписывающих решений, кроме тех, которые просто автоматизируют сценарии типа “отказ сервера” или “открытие заявки”. Вероятные кандидаты на автоматизированные действия с помощью предписывающих инструментов – это действия с низким уровнем риска, которые наносят относительно небольшой ущерб при выходе из строя или вызывают неожиданные побочные эффекты. В зависимости от среды могут быть успешными предопределенные вручную действия, такие как обновление исправлений, а также действия по оптимизации рабочей нагрузки, такие как запуск дополнительной виртуальной машины или контейнера.
Время окупаемости
Клиенты Gartner часто жалуются на то, что время, необходимое для развертывания, настройки и получения выгоды от решения AIOps, может достигать 6 месяцев, а в крайних случаях – 2 лет. AIOps – сравнительно новая технология, и лучшие практики в данной области все еще развиваются. Вместе с тем, организации неохотно инвестируют в продукт, когда потенциальная отдача так далека на временном горизонте.
В целях противодействия этому поставщики реагируют инициативами по ускорению развертывания, включающими:
- переход к развертыванию на основе SaaS (Software as a Service, программное обеспечение как услуга)
- улучшение готовых интеграций для общих интерфейсов
- повторяемые рабочие процессы, встроенные в систему и основанные на проверенных на практике передовых методах
- уменьшение количества ложных срабатываний, генерируемых системой
При построении экономического обоснования окупаемости инвестиций в AIOps руководители подразделений I&O должны обсудить с поставщиками ожидаемое время окупаемости их внедрения. Во многих случаях ожидается, что ограниченное доказательство концепции продемонстрирует, как интеграция будет работать в реальных условиях.
AIOps в DevOps
В рамках общей тенденции “сдвига влево”, то есть слияния инструментов ИТ-операций с DevOps, первые пользователи экспериментируют с AIOps на более ранних этапах конвейера разработки. В сочетании с растущим использованием автоматизации, разработчики используют AI для более быстрой и безопасной доставки программного обеспечения, которым легче управлять в производственной среде. Примеры AIOps в конвейере DevOps показаны на рисунке 4.
Рисунок 4. Применение платформ AIOps в различных сценариях использования в течение жизненного цикла приложения
NLP (Natural Language Processing, обработка естественного языка) широко применяется в инструментах ITSM, но некоторые поставщики решений APM начали включать NLP как часть своих возможностей AIOps. Основная цель здесь – сделать ChatOps более гибким для команд DevOps и предложить лучший интерфейс для данных и автоматизации APM.
6. Показательные поставщики
Введение в рынок
Поставщики платформ AIOps имеют широкий спектр постоянно возрастающих возможностей. Поставщики различаются по способу получения данных и готовым вариантам использования, предоставляемым с минимальной конфигурацией. В Таблице 1 приведен репрезентативный примерный список поставщиков, предоставляющих функциональные возможности платформы AIOps категории доменно-агностических. Некоторые поставщики в таблице предлагают также доменно-ориентированные продукты.
В таблице 2 представлены поставщики доменно-ориентированных AIOps, которые в некоторых случаях специализируются более чем на одном домене.
Таблица 1. Репрезентативные поставщики на рынке платформ AIOps, не зависящих от предметной области (Gartner, апрель 2021)
Поставщик | Название продукта, сервиса или решения |
BigPanda | BigPanda |
BMC | TrueSight Operations Management, Helix Platform |
Broadcom-CA Technologies | DX Operational Intelligence |
Devo (formerly Logtrust) | Devo |
Digitate | ignio |
Elastic | Elasticsearch |
IBM | IBM Cloud Pak for Watson AIOps |
Interlink Software | Interlink Software |
Logz.io | Log Management |
Moogsoft | Moogsoft |
PagerDuty | PagerDuty |
ServiceNow | IT Operations Management (ITOM) |
Splunk | Splunk Enterprise, Splunk Cloud |
StackState | StackState |
Sumo Logic | Sumo Logic |
Таблица 2. Репрезентативные поставщики на рынке предметно-ориентированных платформ AIOps (Gartner, апрель 2021)
Поставщик | Название продукта, сервиса или решения | Предметные области, на которых специализируется продавец |
Aisera | Aisera | ITSM |
Cisco | AppDynamics | APM |
Datadog | Datadog APM | APM |
Digital.ai | Numerify | ITSM |
Dynatrace | Dynatrace | APM, ITM |
Espressive | Barista Case Management | ITSM |
ExtraHop | ExtraHop Reveal(x) for IT Operations | NPMD |
Harness | Continuous Integration, Continuous Delivery, Continuous Efficiency Platforms | DevOps |
IPsoft (Amelia) | DigitalWorkforce.ai Platform | ITSM |
Kentik | Kentik | NPMD |
OverOps | OverOps | Dev |
Pico | Corvil | NPMD |
New Relic | New Relic One Platform | APM, ITM |
OpsRamp | OpsRamp | ITIM |
ScienceLogic | SL1 Platform | ITIM |
Virtana | Virtana Platform | ITIM |
Zenoss | Zenoss | ITIM |
7. Рыночные рекомендации
Используйте нисходящую структуру AIOps
AIOps подходит для вариантов использования, охватывающих иерархию от ИТ-оператора до владельца линии бизнеса или даже генерального директора.
На практике эти платформы изначально способны только на обнаружение аномалий и корреляцию событий. Это означает, что релевантность для ИТ-оператора довольно высока, и конечные пользователи должны создавать результаты, релевантные для персонала: руководителей подразделений I&O, системных администраторов, архитекторов и владельцев бизнес-объектов.
Аналитические возможности платформы используют алгоритмы и модели для поддержки результатов на основе наборов данных, которые могут быть некачественными, неполными и неоднородными. Результаты не всегда являются общими или похожими; следовательно, алгоритмы имеют ограниченную ценность. Из-за сложности и постоянно меняющегося характера ИТ даже модели, используемые платформами AIOps, теряют актуальность без постоянных механизмов обратной связи.
Рекомендуется начать с составления дорожной карты с конечной целью, которую необходимо достичь за счет использования платформ AIOps. Например, в рамках стратегии мониторинга определите, как AIOps может преобразовывать данные, чтобы они соответствовали целевому потребителю, и как это помогает достичь результата для данного пользователя (см. Примечание 5). Следуйте этой рекомендации, наметив очередные шаги, начиная с текущего состояния видимости в рамках ИТ-операций (см. Путь к решению для внедрения AIOps):
- дорожная карта целей, начиная с конечной
- промежуточные шаги, ведущие к цели
- текущее состояние ИТ-операций (шумные события, оповещения на основе статических пороговых значений или использование динамических пороговых значений)
Выберите поставщика платформы AIOps, которая обладает наилучшими возможностями для реализации первого этапа дорожной карты и соответствует планам развития организации (например, может помочь в переходе от корреляции событий к динамическим пороговым значениям и поведенческому анализу с минимальными усилиями). Будьте готовы к проблемам с переносимостью на этих платформах по мере развития вариантов использования (см. Примечание 6).
Автоматизация для анализа
Некоторые организации ставят своей целью автоматизированное исправление выявленных аномалий. Стандартизация автоматического реагирования препятствует крупномасштабному развертыванию автоматизированных действий. ИТ-организации с высоким уровнем зрелости предпочитают автоматизированное понимание автоматизированным действиям как реальной цели. Руководители подразделений I&O должны отдавать приоритет инструментам, которые уменьшат риск отсутствия должного визуального контроля со стороны сотрудников. Например, вместо визуального анализа нескольких графиков платформа AIOps должна выделять области, требующие внимания человека.
COVID-19 потребовал фундаментальных изменений в том, как организации исследуют и внедряют варианты использования AIOps, поскольку переход к работе из дома выявил недостатки в существующих методах. Например, в операционном центре кто-то задавал “вопрос”, и различные группы выкрикивали свое мнение об “ответе”. Руководители увидели возможность еще раз взглянуть на фундаментальные аспекты I&O инструментов, процессов и людей при разработке долгосрочной стратегии (см. рисунок 5 в Примечании 5).
В 2019 году перед клиентами Gartner стояла амбициозная цель разработать информационные панели, актуальные для владельцев бизнес-объектов. Этот путь занял у некоторых организаций от 10 месяцев до 2 лет. Двумя основными элементами были прозрачность и контекстуальная информация, позволяющая бизнес-лидерам принимать решения, в сравнении с отчетами, предназначенными лишь для информирования. После начала пандемии большинство организаций сосредоточилось на основах и снижении рисков, ограничившись существующими готовыми вариантами использования, такими как корреляция событий. До пандемии Gartner видел, как организации ставили более амбициозные цели, которые сегодня могут быть недоступны в готовых инструментах AIOps.
Актуальность для разных пользователей
Платформы AIOps используются различными командами, такими как DevOps, SRE, ИТ-операции, кибербезопасность (см. “Магический квадрант” для информации о безопасности и управления событиями) и бизнес-лидерами. Сценарии использования и требуемые сырые данные различаются в зависимости от команды, внедряющей платформу, и ее зрелости.
Команды DevOps в основном фокусируются на приеме журналов и аналитике. По мере развития практики DevOps варианты использования расширяются, начиная с предварительной подготовки и заканчивая такими производственными показателями, как вовлеченность пользователей, качество и актуальность для бизнеса. Это создает потребность в новых KPI, сравнениях между несколькими версиями и фокусировании на продукте и платформе. Принимая во внимание этот сценарий, целесообразно выбирать платформы, которые могут принимать инструментированные данные (трассировки, метрики и журналы), и упростить работу по снабжению DevOps представлениями о платформе и продукте.
Командам ИТ-операций обычно требуется сочетание метрик и приема журналов, а затем – аналитики. Путь начинается с корреляции событий и, по мере развития, расширяется до поведенческой аналитики, основанной на анализе метрик и журналов. Ключевая цель здесь – обнаружение аномалий и диагностическая информация, за которой следует RCA. Другие варианты использования включают в себя автоматизированные действия с помощью сценариев, где AIOps идентифицирует триггер, связанный с автоматическим действием. Следует выбирать платформы, которые обеспечивают гибкость приема событий, журналов и метрик и предлагают готовые возможности как минимум для одного приоритетного варианта использования для специалистов подразделений I&O.
Бизнес-лидеры в большей степени сосредоточены на привлечении пользователей, а производительность приложений – это лишь один из параметров, влияющих на общее взаимодействие. В некоторых глобальных организациях бизнес-лидеры перестали различать сотрудника и клиента, поэтому термин “пользователь” здесь относится и к тем, и к другим. Этот путь обычно начинается с корреляции влияния пользователей на основе ИТ, но постепенно расширяется и включает KPI, такие как эффективность и производительность технологий, людей и существующих процессов. В зрелых организациях движущей силой таких показателей является повышение вовлеченности, а не сокращение персонала. Для таких сценариев следует выбирать платформы AIOps, которые сфокусированы на кластеризации и демографии и предоставляют информацию о причинно-следственных связях в различных наборах данных, включая настроения и удовлетворенность.
Практики SRE обычно имеют цели, пересекающиеся с ИТ-операциями и вариантами использования DevOps. Как правило, это – развитые варианты использования для обеих практик. Например, корреляция событий и прием журналов не являются основными задачами групп SRE. В сферу их деятельности входит оценка ИТ-архитектуры. Для нужд SRE следует выбирать платформы, которые предоставляют информацию о топологии и зависимостях для ИТ-архитектуры в режиме реального времени в качестве одного из основных вариантов использования.
Примечание 1: Выбор репрезентативного поставщика
Поставщики, перечисленные в этом материале, были выбраны на основе одной или двух из следующих характеристик:
- доменно-агностические решения с возможностью приема данных из нескольких источников, включая архивные и потоковые данные в реальном времени
- доменно-ориентированные решения с возможностью приема данных из определенного домена или данных, специфичных для платформы или практики (например, сети, приложения, ИТ-инфраструктуры, домены DevOps или ITSM)
- различные предложения, включающие проприетарные версии, версии с открытым исходным кодом, бесплатные и коммерческие версии, включая варианты развертывания, которые охватывают как локальные варианты, так и основывающиеся на SaaS
Примечание 2. Источники данных для платформ AIOps
Основные источники данных для платформ AIOps включают:
- API
- журналы приложений
- CRM-данные
- данные клиента
- события
- график
- ITSM
- метаданные
- метрики
- социальные источники
- следы
К сожалению, независимо от того, насколько велик или как часто обновляется набор данных, ограничение одним источником лимитирует понимание поведения системы. Современные ИТ-системы, с присущей им модульностью и динамичностью, требуют многопланового подхода для понимания, что происходит, когда за ними наблюдают.
Примечание 3: Доменно-агностические и доменно-ориентированные AIOps
Доменно-агностические AIOps – поставщики выходят на рынок с универсальной платформой AIOps. Эти продукты, как правило, полагаются в основном на инструменты мониторинга для сбора данных и удовлетворения самых широких вариантов использования.
Доменно-ориентированные AIOps – поставщики, у которых есть ключевые компоненты, но с ограниченным набором вариантов использования. По сути, они делают то же самое, что и раньше, но теперь заменяют правила, эвристику и фингерпринты математикой (алгоритмами). Такие поставщики сосредоточены на одном домене (например, сети, конечных точках или APM), тем не менее, они предприняли некоторые усилия по гибридизации этих категорий и переходу к получению данных из источников, отличных от их собственных инструментальных средств, и включению этих данных в анализ.
Примечание 4. Проблемы автоматизации действий на основе предписывающих рекомендаций
Автоматизированные действия подпадают под несколько категорий:
- задачи предопределенного характера, которые можно спланировать заранее (например, управление исправлениями или развертывание новых сборок)
- задачи, которые невозможно спланировать заранее, но имеющие известные триггеры, которые могут или не могут повторяться часто; при этом процедуры хорошо документированы (например, оптимизация рабочей нагрузки в виртуализированной среде)
- задачи с непредсказуемыми триггерами, действия которых хорошо известны, но плохо задокументированы (например, известные аномалии)
Обычно руководители подразделений I&O не хотят полностью поручать действия машинам и требуют хотя бы проверки, прежде чем запускать процесс автоматизации. Такое отсутствие доверия является одним из основных препятствий на пути повсеместного использования автоматизированных действий.
Из трех перечисленных выше автоматических действий наибольший интерес проявляется к третьей категории; однако связанные с ней технические трудности сложно преодолимы, поэтому внедрение на сегодняшний день – минимально.
Примечание 5. AIOps как часть стратегии мониторинга ИТ
Рисунок 5. AIOps как часть стратегии мониторинга ИТ
Примечание 6: Портативность
По мере того, как внедрение AIOps в организации совершенствуется с функциональными моделями и качественными результатами, смена поставщика решения становится затруднительной. Переход к другому поставщику для репликации существующих высококачественных информационных панелей потребует времени, что сводит на нет любую выгоду, полученную за счет прямой экономии затрат. Имеет место нежелание менять поставщиков при продлении контракта в организациях с более развитыми развертываниями именно по этой причине.
Потребность в жизнеспособных вариантах, чтобы бросить вызов действующим поставщикам, вызвала вопросы относительно переносимости алгоритмов между поставщиками. Эта потребность исходит от нескольких развитых организаций, где решение о внедрении AIOps созрело изнутри. Рынок все еще находится на стадии быстрого роста, и пройдет не менее 2 лет, прежде чем будет заметно растущее давление со стороны организаций в отношении мобильности и реакции поставщиков в качестве отличительного признака.
Некоторые поставщики предлагают трансферное обучение, которое все еще находится в зачаточном состоянии. В более простой форме конечным пользователям предлагается возможность обучения выбранной модели с использованием исторических данных. Результаты алгоритма сравниваются с результатами в реальном времени. Как только результаты продемонстрируют достаточную точность с приемлемыми погрешностями, конечный пользователь может использовать тот же алгоритм для анализа данных в реальном времени. Эта возможность лучше всего работает между подготовительной и производственной средами или между пограничными средами и средами центра обработки данных. Развитие более сложных вариантов использования потребует зрелости и передовых навыков как со стороны поставщика, так и со стороны конечного пользователя.
Сокращения и глоссарий терминов
AI | Artificial Intelligence, искусственный интеллект |
AIOps | Artificial Intelligence for IT operations, искусственный интеллект для ИТ-операций |
AITSM | ITSM driven by Artificial Intelligence, управление ИТ-услугами на основе искусственного интеллекта |
APM | Application Performance Monitoring , мониторинг производительности приложений |
BAM | Business Activity Monitoring, мониторинг бизнес-процессов |
CMP | Cloud Management Platforms, платформы управления облаком |
CRM | Customer Relationship Management, управление взаимоотношениями с клиентами |
DA | Domain-agnostic, доменно-агностический |
DC | Domain-centric, доменно-ориентированный |
DevOps | Development & Operations, разработка и эксплуатация |
I&O | Infrastructure & Operations, инфраструктура и операции |
IaaS | Infrastructure as a Service, инфраструктура как сервис |
ITIM | IT Infrastructure Monitoring, мониторинг ИТ-инфраструктуры |
ITOM | IT Operations Management, управление ИТ-операциями |
ITSM | IT Service Management, управление ИТ-услугами |
KPI | Key Performance Indicators, ключевые показатели эффективности |
ML | Machine Learning, машинное обучение |
NLP | Natural Language Processing, обработка естественного языка |
NPMD | Network Performance Monitoring and Diagnostics, мониторинг и диагностика производительности сети |
RCA | Root Cause Analysis, поиск корневых причин проблем |
SaaS | Software as a Service, программное обеспечение как услуга |
SIEM | Security Information and Event Management, управление информацией о безопасности и событиями |
SRE | Site Reliability Engineering, обеспечение надежности системы |
Основной источник: https://www.gartner.com/en/documents/4000217