Аварии или инциденты: где заканчивается мониторинг и начинается управление сервисом

Несмотря на то, что многие из нас годами работают в сфере сопровождения информационных систем и сервисов, в профессиональной среде все еще сохраняется некоторая путаница в использовании базовой терминологии. Разделение понятий «авария» и «инцидент» часто вызывает трудности даже у профильных специалистов, хотя точное понимание разницы между ними критически важно для эффективной работы ИТ-служб и бизнеса в целом.

Представляем небольшой материал, нацеленный на ликвидацию пробела в терминах и прояснение их роли в контексте систем мониторинга и ITSM (IT Service Management, управление ИТ-сервисами).

В зрелой ИТ-организации термины «event», «alarm»/«alert» и «incident» не следует использовать как взаимозаменяемые. Если смешивать эти понятия, мониторинг быстро превращается в шум, а Service Desk – в склад технических срабатываний без бизнес-контекста.

Важность вопроса

Мониторинг фиксирует состояние наблюдаемых систем, а ITSM управляет влиянием обнаруживаемых событий на услугу и пользователя. В терминах стандарта ITIL (Information Technology Infrastructure Library) инцидент – это незапланированное прерывание или снижение качества сервиса, тогда как тревога (или alert) – это сигнал мониторинга, указывающий на возможную проблему, но еще не обязательно подтверждающий инцидент.

Термины

В практической архитектуре удобно разделять уровень наблюдения и уровень обслуживания:

Понятие	Смысл	Где живет
Событие Event	Сырой факт: метрика, статус, изменение состояния	Система мониторинга
Авария Alarm / Alert	Нормализованный сигнал о потенциальной аномалии	Мониторинг, AIOps, NMS
Инцидент Incident	Подтвержденное нарушение сервиса, требующее восстановления	ITSM / Service Desk

Такое разделение соответствует распространенной практике – события собираются постоянно, аварии возникают по правилам и порогам, а инциденты создаются только после проверки их влияния на сервис.

Аварии и инциденты в логике ITIL

В концепции ITIL авария (или алерт) не тождественен инциденту. Авария сообщает технической команде – «проверьте», а инцидент говорит бизнесу и эксплуатации – «сервис уже нарушен или скоро будет нарушен, требуется восстановление».

По этой причине алерт должен проходить этап валидации, корреляции и приоритизации. В том случае, если автоматически превращать каждое срабатывание в инцидент, система утонет в дублях, а реальные аварии потеряются среди технического шума.

В русле eTOM

В модели eTOM (enhanced Telecom Operations Map) обсуждаемая логика хорошо укладывается в цепочку операционного управления услугой – мониторинг, обнаружение, оценка влияния, эскалация и восстановление. Иначе говоря, авария – это входной сигнал для операционных процессов (operations), а инцидент – уже управляемая сущность процесса Fulfillment/Assurance (выполнение/обеспечение), которая требует назначения, SLA-контроля и восстановления сервиса.

Для телеком- и крупных инфраструктурных сред это особенно важно: одна авария может быть следствием деградации узла, а может – лишь симптомом. eTOM-подход помогает не спорить о терминах, а выстраивать цепочку от наблюдения к управлению услугой и клиентским воздействием.

Согласованность с COBIT

Как уже обсуждалось, в терминологии ITIL авария – это сигнал о возможной проблеме, а инцидент – подтвержденное нарушение сервиса. Фреймворк для управления и контроля ИТ-процессов COBIT (Control Objectives for Information and Related Technologies) отменяет такую логику, добавляя к ней управленческую дисциплину – расследование, диагностику, назначение ответственности и контроль эффективности процесса.

Практическая модель

Хорошая практико-ориентированная схема обычно выглядит так:

Система мониторинга получает сырой факт («raw event») или метрику («metric»).
Правило классификации и корреляции превращает его в аварию («alarm» или «alert»).
Ранжирование и обогащение добавляют контекст: сервис, конфигурационная единица, владелец, SLA, клиент.
В случае, если подтверждено влияние на сервис, создается инцидент.
Инцидент дальше живет по правилам ITIL: приоритет, эскалация, восстановление, закрытие.

Такой путь позволяет отделить «шум датчика» от «события, которое реально мешает бизнесу».

Что показывают производители

У крупных ИТ-платформ используется, в целом, сходная логика. SolarWinds явно поддерживает сценарии, где «alert» инициирует «incident» в интегрированной ITSM-системе, а двусторонняя связь позволяет синхронизировать статусы и изменения.

Похожие подходы применяются и у IBM, Micro Focus, Datadog: мониторинг, APM и наблюдаемость (observability) не подменяют ITSM, а передают в него только то, что прошло проверку на значимость для сервиса. Это и есть «взрослая» модель – мониторинг обнаруживает, ITSM управляет, а не наоборот.

Типовые ошибки

Чаще всего организации ошибаются в трех местах:

создают инцидент на каждое алерт-срабатывание
не связывают аварию с бизнес-сервисом и CMDB (Configuration Management Database, база данных управления конфигурациями)
не разделяют техническую аварию, подтвержденный инцидент и последующее управление проблемами (problem management)

В результате теряется приоритизация, нарушается SLA-логика и размывается ответственность между оперативным центром управления инфраструктурой (ЦУС или Network Operations Center, NOC), Service Desk и владельцами сервисов.

Финальная формулировка

В итоге, если сформулировать совсем коротко, то:

авария отвечает на вопрос – «что-то произошло?»
инцидент отвечает на вопрос – «нарушена ли услуга и что делать для восстановления?»
ITIL и eTOM помогают выстроить между ними управляемую цепочку так, чтобы мониторинг не становился хаосом, а эксплуатация – реакцией на реальную бизнес-проблему