Любая современная цифровая инфраструктура обладает набором систем мониторинга и управления: начиная с микрокода управления оборудованием и заканчивая системами управления виртуальными машинами, контейнерами, сетями и сервисами. Дополнительно, современная инфраструктура имеет дело с облачными ресурсами, которые, наряду с внутренними, используют сотрудники, подрядчики и клиенты предприятия.
В этих условиях такое понятие как «зонтичная система мониторинга и управления» становится необходимым элементом организации процессов обеспечения непрерывности и качества предоставления цифровых услуг. В данном материале будет рассмотрено такое важное понятие как анализ и поиск корневой причины события, инцидента или проблемы (RCA, Root Cause Analysis). Будут введены основные термины и понятия, частично затронуты процессы и операции, обеспечивающие эксплуатацию и развитие цифровой инфраструктуры.
Цель и суть процесса Root Cause Analysis (RCA)
Цифровая инфраструктура (беспроводная и опорная IP-сеть, виртуальная и контейнерная среда, окружения и системы, приложения и реализуемые услуги) является постоянным источником событий, возможно, инцидентов и проблем. Основная цель эксплуатирующих цифровые инфраструктуры подразделений – обеспечить непрерывность предоставления услуг, обеспечить требуемые в SLA (соглашение о предоставлении сервиса) характеристики доступности и производительности. Возможны и распространены ситуации, когда регистрируемые события, инциденты и проблемы являются проявлением (симптомами), но истинная причина оказывается замеченной не сразу, следствием чего является снижение скорости ликвидации сбоя в работе ключевого компонента.
Поиск, исследование и устранение проблем являются ключевыми операциями аналитики качества сервисов. Аналитика – занятие кропотливое, экспертное – циклическое: от проблемы до решения и так многократно. Отправной точкой (триггером) является инцидент – незапланированное событие, которое приводит к сбою в работе сервиса (событие, классифицированное как инцидент) согласно концепции ITIL (IT Infrastructure Library). Движущей силой (драйвером) будет являться проблема – причина или, точнее, потенциальная причина одного или нескольких инцидентов. Предмет исследования в RCA – необходимость рассмотрения гипотез о вероятной причине, особенно в случае возникновения одной или нескольких потенциальных проблем.
Выстроенные в результате RCA причинно-следственные связи позволяют ускорить диагностику и проведение аварийно-восстановительных работ, осуществлять более качественное планирование и согласование регламентных работ. Основной целью процесса выявления корневых причин, таким образом, видится обеспечение повышения показателей качества предоставления услуг заказчикам и спонсорам «цифрового веселья».
Проведение процесса RCA вручную
Прежде чем начать разговор об автоматизации RCA, скажем несколько слов о том, как работает процесс без вычислительных машин. Для «ручного» анализа корневых проблем к настоящему моменту предложен ряд методов, позволяющих систематизировать и упростить процесс сбора данных и поиска причин:
- Cause and Effect Analysis (анализ причин и эффектов) – методика, которая заключается в создании диаграмм связей влияющих факторов и последствий для аналитики
- «5 Почему» (5 Whys) – частный случай поиска причинно-следственных связей, позволяет найти действительную причину события; достаточно несколько раз «как бы» поставить под сомнение выявленную причину, повторно задавая вопрос «почему» до тех пор, пока причина действительно не покажется глубокой, правдоподобной, а решение приведет к системным изменениям
- Drill Down («спуститься на уровень ниже») – способ рекомендует разбить крупную проблему на составные, меньшие части, получить более ясную картину влияний и зависимостей, что может помочь точнее выбрать верную гипотезу
- Failure Mode & Effects Analysis (FMEA) – методология проведения анализа производственных процессов, нацеленная на управление качеством продукции путем выявления наиболее критических шагов; способ пригоден не только для разбора проблем «задним» числом, но и для выстраивания превентивного метода работы с потенциальными проблемами
- Kaizen – стратегия изначального построения производственных процессов для облегчения выявления проблем и непрерывного совершенствования качества сервиса (также как и FMEA, позволяет работать с проблемами превентивно)
Для проведения процесса RCA-анализа в ручном режиме компаниям необходимо иметь регулярно действующую высококвалифицированную RCA-команду или привлекать для целей анализа сервисные организации. Эксперт или экспертная группа могут вручную проводить анализ причин тех или иных инцидентов и проблем, но применение методик, автоматизированных инструментов и документирование позволит использовать время эффективно и избежать повторения аварийных ситуаций.
Классы причин
Итак, RCA – систематический процесс поиска и идентификации ключевых причин возникновения проблем или событий, их обстоятельный анализ, создание и реализация плана по устранению. Двигаться по ходу процесса помогут ответы на следующие вопросы: «Что случилось?», «Где случилось?», «Когда случилось?», «Почему случилось?», «Какое решение?», «В чьей зоне ответственности?», «Как предотвратить?», «Каковы риски???». На основании опыта расследования проблем качества можно выделить следующие базовые группы причин:
- человеческий фактор
- организационные причины – некорректно выстроенные процессы
- операционные причины – ошибки исполнения процессов
- физические причины (материальные) – дефекты оборудования/программного обеспечения, несоответствие номинальным режимам работы и т.п.
Источники данных для RCA
Источниками данных для RCA является информация о плановых и аварийных работах в инфраструктуре, порядке взаимодействия подразделений, соответствии последовательности и самих операций процедурам и инструкциям. Для получения полноценной картины состояния систем инфраструктуры в динамике будут полезны все доступные средства технологического наблюдения, сбора и учета данных, такие как:
- мониторинг событий инфраструктуры
- мониторинг производительности элементов инфраструктуры
- мониторинг отказов элементов инфраструктуры
- мониторинг изменений в инфраструктуре (включая автоматическое обнаружение, плановые работы, сравнение)
- журналирование проводимых операций и выполняемых процедур
- сопровождение базы данных инвентаризации и иерархии объектов
- документирование и использование базы знаний (правила, зависимости, связи)
Использование систем автоматизированного непрерывного наблюдения (мониторинга) и автоматизация упомянутых процессов вплотную приближает нас к возможностям автоматизации построения RCA-моделей.
Важно понимать, что сбор данных должен осуществляться на всех уровнях ресурсно-сервисной модели: от сетевого до технологических и бизнес-услуг; и чем детальнее осуществляется этот сбор во временном разрешении, чем точнее и подробнее будет сама модель, тем точнее будут гипотезы и выводы.
Сложности анализа и выявления корневых причин
Сложности проведения успешного RCA характерны для процесса мониторинга в целом и построения всесторонней картины прозрачности и наблюдаемости:
- разрозненность источников данных и инструментов мониторинга затрудняет понимание взаимозависимостей между сервисами, приложениями, облачными платформами и цифровыми каналами
- объем, скорость, разнообразие и сложность: крайне сложно получить и интерпретировать ответы от огромного количества необработанных данных, собранных из компонентов динамически меняющихся объектов инфраструктуры
- ручные инструменты и настройка: эксперты вынуждены в «полуручном» режиме обрабатывать информацию, затрачивая время на настройку правил, алгоритмизацию, а не, собственно, на аналитику на основе данных наблюдений
- трата времени на устранение неполадок: группы эксплуатации, инфраструктуры, разработки и цифрового взаимодействия, привлеченные для устранения неполадок и определения первопричин проблем, тратят время на «угадывание» и попытки разобраться в телеметрии
Ключевыми показателями успешности процедуры RCA являются точность определения корневой причины, количество гипотез, время сбора гипотез, время решения проблемы. Для бизнеса наибольшую критичность имеет время полного устранения проблемы и ее «неповторение». Решающими обстоятельствами становятся здесь компетенции экспертных групп всех линий технической поддержки и имеющиеся наработки, задокументированные в деревьях решений и алгоритмах анализа.
Перечисленные сложности являются предпосылками и мотивационными факторами для автоматизации процедуры RCA. Цель автоматизации состоит в предметной работе со сложностями и их преодолении, а ее эффективность оценивается степенью влияния на показатели качества предоставления сервисов.
Реализация RCA на платформе «Центральный Пульт»
Система, построенная на платформе «Центральный Пульт» (SAYMON), уже обладает набором ключевых свойств не только развитого мониторинга, но и наблюдаемости.
Для полноценной картины состояния систем инфраструктуры в платформе реализован сбор данных о событиях, производительности работы элементов, тайминге, периодичности и критичности отказов, изменениях и конфигурации инфраструктуры, логов операций и процедур. Предусмотрены также синхронизация и поддержка базы данных инвентаризации и иерархии объектов, документирование и использование базы знаний (правила, зависимости, связи).
Процесс очистки данных от «шума» существенно облегчает встроенный механизм дедубликации событий. Механизмы автоматического обнаружения и оповещений успешно используются для снижения нагрузки на экспертов в части создания иерархии объектов сетевой и виртуальной инфраструктуры, наполнения их параметрией, добавления логических и физических связей.
В ядре платформы реализован функционал диагностики первопричин аварий на объектах на основе иерархической модели с учетом весового принципа влияния объектов. Платформа имеет ряд функций для создания автоматизированных иерархических связей, например, при подключении внешних систем управления, таких как система управления виртуализацией. Использование возможностей создания синтетических и дублирующих связей позволяет задействовать систему в качестве средства для описания (документирования) знаний и гипотез экспертов. Доступная система свойств и документов делает работу экспертных и сервисных служб еще эффективнее. Встроенная система аудита изменений позволяет отслеживать развитие изменений.
Важным компонентом для эффективной повседневной работы дежурных подразделений и экспертов по эксплуатации и развитию является визуализация. Существующие в «Центральном Пульте» возможности представлений топологической и иерархической связанности, построения схем, прослеживания географических представлений, табличных и комплексных экранов достаточно гибки и кастомизируются при наличии соответствующих запросов со стороны клиентов и партнеров.
Цель внедрения инструментария состоит не только в повышении скорости обработки данных, расширении спектра информации о связях и объектах, удобном представлении иерархий и отчетности, но и в применении алгоритмов, позволяющих системе самостоятельно выдвигать гипотезы о причинах сервисных проблем, ранжировать гипотезы и рекомендовать решения на основе баз знаний и обучения моделей. Готовятся к внедрению пилотные проекты модулей на базе алгоритмов машинного обучения и искусственного интеллекта по поиску корреляций событий и статистики с элементов и латентных связей элементов сети и сервисов.
Запланированное расширение возможностей платформы позволит автоматически формировать дополнительные связи и строить причинно-следственные последовательности, точнее локализовывать маску связанных сигналов на сетевом графе. Дополнительные системы оценки весов и вероятностей влияния объектов в иерархии с формированием информационных инцидентов нацелены на обогащение картины первоначальной причины развития ситуации, отличной от нормы (инцидент, проблема).
Команда развития платформы «Центральный Пульт» в 2022 году усилена экспертами по машинному обучению и использованию искусственных нейронных сетей для обработки массивов данных, что обещает дополнительные возможности клиентам и партнерам, использующим системы на базе платформы.
Внедрения коммерческих проектов на платформе «Центральный Пульт» демонстрируют потенциальную применимость и высокую эффективность машинной аналитики, исходя из факторов зрелости процессов, готовности инфраструктуры, объемов, детализации и свойств данных.
Оставайтесь на связи, следите за нашими публикациями или обращайтесь за консультациями по вопросам анализа и поиска корневых причин проблем в работе ваших сервисов!