Azercell: озеро данных своими руками

Азад Гусейнов, директор департамента больших данных и аналитики компании Azercell, — о создании озера данных, позволяющего отслеживать многие процессы в реальном времени и принимать решения на основе получаемых данных.

В 2020 году компания Azercell создала умное озеро данных, которое было призвано стать надежным поставщиком данных и вывести на новый уровень возможности их обработки. Амбициозность задач демонстрирует название проекта: «Стать центром ИИ и аналитики Азербайджана». С помощью мощной платформы компания отслеживает многие процессы в реальном времени, но главным достижением стало то, что люди действительно принимают решения на основе получаемых данных. Об истории и подробностях этого проекта рассказал Азад Гусейнов, директор департамента больших данных и Аналитики компании Azercell.

— Расскажите об истории создания в Azercell умного озера данных.

Создание умного озера данных было начато в марте 2019 года. Наша цель заключалась в том, чтобы предоставить бизнесу больше источников данных, необходимых для анализа. Мы начали создавать озеро данных параллельно с подготовкой среды машинного обучения и развития искусственного интеллекта. С самого момента запуска озеро данных было интегрировано в эту среду.

Кроме подключения различных источников и колоссальных возможностей обработки данных, мы также ввели возможности обработки и анализа данных в режиме реального времени. Сейчас компания, используя созданную платформу, отслеживает свой общий ежедневный доход с 15-минутной задержкой.

— Чем, с вашей точки зрения, умное озеро данных отличается от «обычного»?

Наше умное озеро данных не используется в качестве фиктивного хранилища данных. Оно используется в качестве надежного поставщика данных и платформы для распределенной обработки данных и работы моделей машинного обучения.

— Какие были поставлены цели перед проектом?

Цель состояла в том, чтобы включить множество ценных источников данных, иметь возможность отслеживать все ключевые показатели эффективности практически в реальном времени. Еще одной важной целью было создание культуры Data Governance внутри организации.

После этого мы нацелились на прямую и косвенную монетизацию всего проекта. На основе информации, извлеченной из озера данных, были созданы многие процессы машинного обучения, а также боты.

— Сколько времени и какими силами реализовывался проект?

Начальная фаза проекта в целом заняла 12 месяцев, из которых два месяца ушло на развертывание и перенос данных. Остальное время проекта было потрачено на создание конвейеров потоковой передачи и пакетной обработки. Проект был реализован собственными силами, без каких-либо внешних консультаций и поддержки.

— Какие платформы были использованы?

Среда озера данных создана на основе технологий с открытым исходным кодом — с использованием предоставленного Cloudera дистрибутива Hadoop, Apache Kafka, Apache Nifi. Мы разработали нашу отдельную среду машинного обучения и искусственного интеллекта (сервер рабочих станций) на основе технологий и библиотек с открытым исходным кодом и интегрировали ее в качестве граничного узла в наш кластер озера данных.

Кроме того, для выявления аномалий в данных используется модуль Informatica Data Quality, а для визуализации применяются средства Tableau.

— Что в ходе проекта было самым сложным?

Самой сложной частью всего процесса было формирование видения и миссии всего проекта. Мы должны были определиться, кем хотим быть и что хотим получить в итоге. В результате мы назвали проект «Стать центром ИИ и аналитики Азербайджана», и это стало маяком для всех нас.

— Каких результатов удалось достичь, какие из них вы считаете наиболее важными?

Для принятий решений нами используется достоверная, качественная информация. Все данные, которые занесены в платформу, отслеживаются и при наличии аномалий исправляются. Тем самым обеспечивается достоверность данных в реальном времени, что дает возможность выполнять точные расчеты. Например, сведены к нулю ошибки при оплате, калькуляциях и прочих процессах. Повышение качества обслуживания абонентов.

Кроме того, произошло ускорение time-to-market за счет качественных данных в реальном времени. Рост скорости принятия решений составил до пяти раз.

Но главное достижение — видеть, как люди принимают решения на основе данных, которыми мы их снабжаем. Они достигают реальных целей компании, снижают отток, увеличивают средний доход на пользователя и т.д.

— Приведите пример проекта, который принес заметный результат и стал возможен благодаря внедрению умного озера данных?

На базе озера данных была запущена программа лояльности. Всего за месяц удалось увеличить количество пользователей приложения Azercell на 400%. Мы гордимся этим результатом.

— Пытались ли оценить совокупный финансовый результат от внедренного решения? Ускорение и точность решений, сокращение ТТМ, уменьшение оттока клиентов имеют вполне исчислимые эффекты.

Дополнительный доход составляет 0,5% от общего дохода Azercell в 2021 году. Кроме того, на 25% сократился показатель оттока клиентов.

— В каком направлении будет развиваться озеро данных?

Недавно мы согласовали нашу дорожную карту озера данных с целью превратить его в готовую к выходу в облако платформу данных с использованием последних технологий (таких как Delta, Apache Iceberg), а также контейнеризации. Это позволит нам выполнять любые задачи с данными в гибридном облаке и в локальной среде. Мы также планируем внедрять и использовать только инструменты и программное обеспечение с открытым исходным кодом, что также снизит общую стоимость владения нашей будущей платформы данных.