Об уровне критичности инцидентов в цифровых инфраструктурах

Одной из важных функциональных характеристик развитой системы мониторинга и управления цифровых инфраструктур является способность системы адекватно оценивать уровень критичности регистрируемых событий, оперативно и корректно принимать решения о приоритетности и способе реагирования, автоматически инициировать необходимую реакцию на классифицированные инциденты.

В настоящей статье рассматриваются основные источники и механизмы поступления в системы мониторинга первичных событий от инфраструктуры, методы их классификации и формирования инцидентов, оценки уровня критичности. Обсуждаются соответствующие возможности, доступные в программной платформе «Центральный Пульт».

Введение

26-29 сентября 2022 года в Москве состоялась XXV Международная научная конференция «Распределенные компьютерные и телекоммуникационные сети: управление, вычисление, связь» («Distributed Computer and Communication Networks: Control, Computation, Communications», DCCN-2022).

Основная цель конференции – предоставить платформу для исследователей и разработчиков из научной сферы и промышленности, специализирующихся в областях теории и приложений распределенных компьютерных и коммуникационных сетей, математического моделирования, методов управления и оптимизации распределенных систем, дать возможность поделиться мнениями, обсудить перспективные разработки и развивать сотрудничество в перечисленных областях.

Подготовленная сотрудниками компании «РОССИННО» статья «Теория и практика определения уровня критичности инцидентов в цифровых инфраструктурах» опубликована в сборнике трудов конференции. Представляемый далее материал базируется на опубликованной статье и содержит ряд дополнительных соображений.

Системы мониторинга и управления. Организация управления инцидентами в инфраструктуре

В условиях постоянно растущей роли и значения информационно-коммуникационных технологий (ИКТ) в бизнес-процессах организаций из широкого спектра отраслей, увеличивающейся зависимости функционирования производств и оказания услуг от непрерывности и надежности работы средств автоматизации деятельности, сложных цифровых экосистем на первый план выходят технологии и программные решения мониторинга и оперативного управления.

Системы мониторинга и управления нацелены на выполнение в постоянном режиме комплексного «аудита» наблюдаемых цифровых инфраструктур (включая отдельные элементы, комплексы и услуги), отвечают за процессы управления ИКТ-средами и консолидацию информационных потоков, формируя единую среду для обмена, сквозной интеграции и оркестрации данных, реализуя механизмы сбора информации из разных источников, обработки и интеллектуального анализа. 

Значимая составляющая процесса мониторинга связана с эффективной организацией управления происходящими в инфраструктуре инцидентами, которые представляют собой регистрируемые и классифицируемые системой мониторинга события, требующие повышенного внимания, своевременной и адекватной реакции. Система мониторинга и управления в идеале должна однозначно и правильно классифицировать событие, присвоить (или подтвердить) уровень критичности (важности, опасности, значимости – severity), обоснованно принять решение о приоритетности и способе реагирования и, при наличии возможности, реализовать его, в том числе с применением средств автоматизации – автоматически устранить причину сбоя или предпринять действия, предупреждающие перерыв в предоставлении сервисов или деградации качества.

Полная автоматизация процессов и операций сборки, развертывания, масштабирования, мониторинга и управления рассматривается в профильном сообществе как концепция роботизированных операций эксплуатации цифровой инфраструктуры (Artificial Intelligence for IT Operations, AIOps).

Источники данных мониторинга, события и инциденты

Цифровая инфраструктура в процессе активного функционирования генерирует поток сообщений (первичных событий), которые могут поступать в систему мониторинга на основе различных методов сбора, транспортов и протоколов обмена информацией.

Системы мониторинга позволяют получать и обрабатывать сообщения, направленные из файлов журналов сетевого и серверного оборудования, от виртуализированных сред, системных и прикладных сервисов (syslog), SNMP-ловушки («traps»), сетевые потоки NetFlow и родственных протоколов, зеркалированную копию IP-трафика, потоки событий от смежных систем мониторинга, таких производителей как IBM, BMC, DynaTrace и др. Отдельный интерес представляют специальные протоколы/форматы данных, среди которых – оригинальные, кастомные (например, оборудования для мобильной связи), MQTT-события от устройств Интернета вещей (Internet of Things, IoT) и контроллеров автоматизации, события на основе открытых протоколов машинного взаимодействия, например, ModBus. Нельзя не упомянуть здесь и о таких источниках событий, как сообщения и метрические данные, поступающие от приложений – от включений, указанных авторами в коде программ (инструментирование кода), а также от косвенным образом собранных данных о том, насколько быстро и качественно программы работают (класс решений – Application Performance Management, APM).

Еще одним ценным источником событий от инфраструктуры являются данные, поступающие от локальных или специализированных систем управления. Например, телекоммуникационные комплексы, комплексы управления сетями хранения данных, распределенными вычислениями самостоятельно выполняют консолидацию и классификацию событий, выдают поток данных о происходящих в локально-сконцентрированной части инфраструктуры событиях и инцидентах. Здесь можно упомянуть систему управления телекоммуникационной инфраструктурой U2000 производства компании Huawei и подсистему управления HLR/HSS компании HPE. 

Во многих практически значимых ситуациях уровень критичности в поступающих из разных источников сообщениях не задан, и решение задачи по его установлению и дальнейшим действиям возлагается на систему мониторинга. Такие системы также решают задачи фильтрации (отбрасывания заведомо бесполезных для классификации ситуаций) и дедупликации сообщений, которые поступили различными путями, возможно, от разных элементов инфраструктуры, но при этом указывают на одну и ту же ситуацию.

Развитая система способна осуществлять классификацию потока первичных сообщений различной природы посредством применения настроенных правил анализа состояний наблюдаемых компонентов инфраструктуры, правил генерации инцидентов, корреляции или иных доступных аналитических обработчиков. В результате создается поток вторичных событий, в которых уровень критичности классифицированных инцидентов определен (например – авария, предупреждение, информирование, отмена аварии), возможно, точнее исходного с учетом особенностей конкретной инфраструктуры и применения уточняющих методик.

Вторичные события обычно сохраняются в журналах событий системы, а сведения об инцидентах (авариях) выводятся на информационные панели диспетчерских служб, при необходимости, оперативно эскалируются, оповещения направляются ответственным сотрудникам по электронной почте, SMS, автоматически добавляются в системы класса Service Desk, направляются в мессенджеры для запуска настроенных сценариев обработки ситуаций.

Ключевая подлежащая решению задача состоит здесь в разработке и применении высокоэффективных и надежных алгоритмов, методов и реализующих их инструментов, которые позволяли бы максимально достоверно и надежно определять уровень важности каждого конкретного события, уровень критичности создаваемого инцидента и инициировать должную обработку ситуации.

Используемые на практике методы задействуют готовые сценарии, специальные методы математической статистики, машинного обучения, базы данных управления конфигурацией (Configuration Management Database, CMDB), накопленную информацию о возникавших ранее проблемах и ряд других методов. В сложных динамических инфраструктурах требуется дополнительно учитывать иерархичность, связанность компонентов и их взаимное влияние.

Работа с инцидентами и методы определения уровня критичности в платформе «Центральный Пульт» (SAYMON)

Российская высокопроизводительная платформа реализации решений широкого спектра задач мониторинга и управления цифровыми активами «Центральный Пульт» (SAYMON) интенсивно развивается компанией «РОССИННО» с 2013 года.

Платформа базируется на программно-определяемой иерархии наблюдаемых объектов. Графовая модель подразумевает описание объектов в иерархической связанности, взаимном влиянии и разграничении прав, обеспечивает высокую скорость работы, возможности автоматизации анализа корневых причин событий (Root Cause Analysis, RCA) и мультисервисного использования цифровых массивов.

Набор сенсоров с возможностью кастомизации позволяет гибко настраивать потоки и методы сбора информации. Допустимые обогащение, коррекция форматов данных, конструкторы интерпретации, взаимоувязывания и корреляций, последующих действий помогают гибко реализовать необходимую бизнес-логику. Настраиваемые правила автоматических действий и уведомлений предоставляют возможности выстраивания самовосстанавливающихся систем и приближения к парадигме AIOps.

Первичные события могут поступать в систему от агентов в виде SNMP-ловушек и MQTT-событий (с возможностью предварительной фильтрации), затем автоматически ассоциироваться с соответствующими объектами и отображаться в журнале событий в веб-интерфейсе. Привязка событий к объектной модели, правила их классификации осуществляются через графический конструктор или программными сценариями.  В отношении событий и классифицированных инцидентов могут быть автоматически выполнены предопределенные операции. Возможно «присоединение» выполнения операции к изменению состояния объекта, что позволяет выстроить автоматическую реакцию системы на происходящие активности.

В целях определения уровня критичности инцидента предусмотрен конструктор условий (графический или программный) для конкретных компонентов наблюдаемой инфраструктуры. Возможно задание степени влияния дочерних узлов описывающей инфраструктуру иерархии на вышестоящие и формирование групповых или синтетических инцидентов. Каждый объект или связь в системе имеет вес. Веса объектов и связей, имеющие общего родителя и находящиеся в одном состоянии, суммируются. Используемый системой базовый алгоритм распространения состояний объектов на вышестоящие узлы в иерархии показан на рисунке.

Разработаны и систематически модернизируются дополнительные методики и способы расчетов коэффициентов влияния, корреляции и определения первопричин развивающихся ситуаций. Соответствующие решения предоставляются клиентам в рамках поставки платформы, и их описания в открытом доступе отсутствуют. 

Обоснованное использование перечисленных возможностей требует предварительно решить задачу поиска источников и построения иерархии, а также с высокой точностью установить уровень критичности инцидентов в отношении объектов. Здесь предусмотрены механизмы взаимодействия с CMDB и механизмы автоматического обнаружения (discovery).

Таким образом, мониторинг и оперативное управление комплексными  цифровыми инфраструктурами – это процесс, предполагающий решение целого спектра взаимно увязанных задач, многие из которых базируются на современном математическом аппарате, статистических методах, алгоритмах и технологиях машинной аналитики данных. Одной из таких востребованных на практике задач является достоверная оценка системой мониторинга уровня критичности регистрируемых событий и инициирование должной реакции на классифицированные инциденты.

Реализованные в платформе «Центральный Пульт» (SAYMON) механизмы оставляют дополнительные возможности для совершенствования, оценки и анализа развивающихся ситуаций. История наблюдений в конкретной инфраструктуре обогащает возможности автоматического анализа оперативно развивающихся ситуаций в будущем. Возможности переноса исторически накопленного опыта от инфраструктуры к инфраструктуре («облако знаний») обеспечивают недостижимый ранее уровень уточнений.

Программный комплекс «Центральный Пульт» предоставляет российскому рынку уникальные возможности, что подтверждается осознанным выбором в пользу нашей платформы, сделанным целым рядом крупнейших компаний страны в рамках процессов импортозамещения и цифрового развития. Платформенная концепция позволяет реализовывать решения повышенной сложности, ответственности и надежности. Адаптация решения на базе платформы «Центральный Пульт» под специфические требования заказчика и инфраструктуры осуществляется партнерами, специалистами клиента или обеспечивается командой компании «РОССИННО». Сегодня целый ряд клиентов реализует свои решения высокого уровня адаптации пользовательских интерфейсов и методов сбора данных на платформе «Центральный Пульт», включенной в реестр отечественного программного обеспечения.

Оставайтесь на связи, следите за нашими публикациями и обращайтесь за консультациями по вопросам применения высокоэффективных методов оценки критичности инцидентов в цифровых инфраструктурах!
И… да, у нас есть вакансии! Пишите!