В 2020 году компания Azercell создала умное озеро данных, которое было призвано стать надежным поставщиком данных и вывести на новый уровень возможности их обработки. Амбициозность задач демонстрирует название проекта: «Стать центром ИИ и аналитики Азербайджана». С помощью мощной платформы компания отслеживает многие процессы в реальном времени, но главным достижением стало то, что люди действительно принимают решения на основе получаемых данных. Об истории и подробностях этого проекта рассказал Азад Гусейнов, директор департамента больших данных и Аналитики компании Azercell.
— Расскажите об истории создания в Azercell умного озера данных.
Создание умного озера данных было начато в марте 2019 года. Наша цель заключалась в том, чтобы предоставить бизнесу больше источников данных, необходимых для анализа. Мы начали создавать озеро данных параллельно с подготовкой среды машинного обучения и развития искусственного интеллекта. С самого момента запуска озеро данных было интегрировано в эту среду.
Кроме подключения различных источников и колоссальных возможностей обработки данных, мы также ввели возможности обработки и анализа данных в режиме реального времени. Сейчас компания, используя созданную платформу, отслеживает свой общий ежедневный доход с 15-минутной задержкой.
— Чем, с вашей точки зрения, умное озеро данных отличается от «обычного»?
Наше умное озеро данных не используется в качестве фиктивного хранилища данных. Оно используется в качестве надежного поставщика данных и платформы для распределенной обработки данных и работы моделей машинного обучения.
— Какие были поставлены цели перед проектом?
Цель состояла в том, чтобы включить множество ценных источников данных, иметь возможность отслеживать все ключевые показатели эффективности практически в реальном времени. Еще одной важной целью было создание культуры Data Governance внутри организации.
После этого мы нацелились на прямую и косвенную монетизацию всего проекта. На основе информации, извлеченной из озера данных, были созданы многие процессы машинного обучения, а также боты.
— Сколько времени и какими силами реализовывался проект?
Начальная фаза проекта в целом заняла 12 месяцев, из которых два месяца ушло на развертывание и перенос данных. Остальное время проекта было потрачено на создание конвейеров потоковой передачи и пакетной обработки. Проект был реализован собственными силами, без каких-либо внешних консультаций и поддержки.
— Какие платформы были использованы?
Среда озера данных создана на основе технологий с открытым исходным кодом — с использованием предоставленного Cloudera дистрибутива Hadoop, Apache Kafka, Apache Nifi. Мы разработали нашу отдельную среду машинного обучения и искусственного интеллекта (сервер рабочих станций) на основе технологий и библиотек с открытым исходным кодом и интегрировали ее в качестве граничного узла в наш кластер озера данных.
Кроме того, для выявления аномалий в данных используется модуль Informatica Data Quality, а для визуализации применяются средства Tableau.
— Что в ходе проекта было самым сложным?
Самой сложной частью всего процесса было формирование видения и миссии всего проекта. Мы должны были определиться, кем хотим быть и что хотим получить в итоге. В результате мы назвали проект «Стать центром ИИ и аналитики Азербайджана», и это стало маяком для всех нас.
— Каких результатов удалось достичь, какие из них вы считаете наиболее важными?
Для принятий решений нами используется достоверная, качественная информация. Все данные, которые занесены в платформу, отслеживаются и при наличии аномалий исправляются. Тем самым обеспечивается достоверность данных в реальном времени, что дает возможность выполнять точные расчеты. Например, сведены к нулю ошибки при оплате, калькуляциях и прочих процессах. Повышение качества обслуживания абонентов.
Кроме того, произошло ускорение time-to-market за счет качественных данных в реальном времени. Рост скорости принятия решений составил до пяти раз.
Но главное достижение — видеть, как люди принимают решения на основе данных, которыми мы их снабжаем. Они достигают реальных целей компании, снижают отток, увеличивают средний доход на пользователя и т.д.
— Приведите пример проекта, который принес заметный результат и стал возможен благодаря внедрению умного озера данных?
На базе озера данных была запущена программа лояльности. Всего за месяц удалось увеличить количество пользователей приложения Azercell на 400%. Мы гордимся этим результатом.
— Пытались ли оценить совокупный финансовый результат от внедренного решения? Ускорение и точность решений, сокращение ТТМ, уменьшение оттока клиентов имеют вполне исчислимые эффекты.
Дополнительный доход составляет 0,5% от общего дохода Azercell в 2021 году. Кроме того, на 25% сократился показатель оттока клиентов.
— В каком направлении будет развиваться озеро данных?
Недавно мы согласовали нашу дорожную карту озера данных с целью превратить его в готовую к выходу в облако платформу данных с использованием последних технологий (таких как Delta, Apache Iceberg), а также контейнеризации. Это позволит нам выполнять любые задачи с данными в гибридном облаке и в локальной среде. Мы также планируем внедрять и использовать только инструменты и программное обеспечение с открытым исходным кодом, что также снизит общую стоимость владения нашей будущей платформы данных.