На первом месте находятся технические сбои инфраструктуры (53% сбоев возникли по этой причине). Более половины таких инцидентов связаны с отказом оборудования, каналов связи или ПО из-за износа или перегрузок.
Вторую позицию занимают ошибки релизов и обновлений – данная проблема вызвала 19% сбоев. Человеческий фактор в процессе внедрения изменений стал серьезной причиной ряда инцидентов. Например, неправильно проведенные технические работы могут выводить из строя сервисы на длительное время. У многих компаний отсутствует мониторинг пользовательского опыта и налаженная схема дежурств, из-за чего сбои после релизов выявляются с опозданием.
На третьем месте расположились кибератаки и злонамеренные действия (16% инцидентов). В условиях обострившейся киберобстановки значительно вырос вклад DDoS-атак и взломов в общую статистику инцидентов.
Импортозамещение и технологические риски также являются существенным фактором, влияющим на возникновение ИТ-сбоев – эксперты зафиксировали 8% инцидентов, случившихся по этой причине. Переход на отечественные решения, хотя и необходимый, краткосрочно повысил риск сбоев. Стремительная миграция на новые платформы без достаточного опыта эксплуатации привела к росту ошибок конфигурации и совместимости. Также были выявлены случаи нестабильной работы самописного ПО, созданного взамен ушедшего.
Наконец, последней причиной являются ошибки персонала и технологические сбои (4% инцидентов). Человеческий фактор проявляется не только при релизах, но и в рутинной эксплуатации. Неправильные настройки, просроченное обслуживание и запоздалое реагирование усугубляют многие аварии. Человеческие ошибки при обслуживании автоматизированных систем – одна из причин внеплановых остановок, наряду с поломками оборудования и ИТ-инфраструктуры. Управленческие недочеты (недостаток резервирования, неотрепетированность плана аварийного восстановления) тоже можно отнести сюда: они не вызывают сбой напрямую, но определяют тяжесть последствий.