Модернизировать мониторинг T2 потребовалось из-за роста объемов данных и повышенных требований к надежности сервисов. Любые сбои в инфраструктуре напрямую влияют на миллионы абонентов, репутацию и выручку компании. Оператору требовалось зрелое вендорское решение, которое обеспечивает полную наблюдаемость инфраструктуры, высокую производительность и устойчивость к внешним воздействиям.
Разработка построена на базе российской системы «Пульт» компании «Лаборатория Числитель», в основе — ядро Zabbix. Одним из ключевых преимуществ системы перед Zabbix являются доработки, которые позволяют ей стабильно и надежно работать при высоких нагрузках в enterprise-инфраструктуре и хранить большие объемы данных. В результате удалось в три раза увеличить мощности по сбору данных мониторинга и оптимизировать их хранение в 10 раз.
Геораспределенная архитектура охватывает три ЦОДа и 12 площадок. Решение отличается повышенной производительностью — система обрабатывает до 15 млн метрик. Сбор данных происходит через прокси-серверы, а гибридное хранение обеспечивается PostgreSQL и ClickHouse. Комбинирование технологий обеспечивает высокую скорость обработки данных и простую масштабируемость.
Ключевой результат проекта — увеличение скорости реагирования на инциденты в 2,7 раза. Архитектура выдерживает трехкратный рост количества данных и обеспечивает долгосрочное хранение до семи лет и анализ больших данных.
Как отмечает Павел Ковальский, директор по стратегическому развитию сети Т2, внедрение катастрофоустойчивого мониторинга позволило не только повысить скорость реакции на инциденты, но и перейти к проактивному управлению инфраструктурой. Компания уверена в устойчивости системы даже в самых сложных сценариях.