S7 Airlines: виртуализация данных, self-service, Data Mesh

Арег Азарян, Chief Data Officer компании S7 Airlines, – о создании корпоративной платформы данных, решаемых задачах и достигнутых результатах.

В S7 Airlines запущена корпоративная платформа, обеспечившая прозрачность активов данных и значительно сократившая время доступа пользователей к данным. Об особенностях этого проекта и используемых подходах рассказал Арег Азарян, Chief Data Officer компании S7 Airlines.

— Как формировалась в S7 Airlines практика работы с данными, какие этапы она прошла?

S7 Airlines, как и любая авиакомпания, зависит от различного рода ИТ-решений, в которых в большом количестве могут генерироваться данные. Данных этих бывает много, а иногда даже очень много – например, если брать телеметрию воздушного судна. У нас много источников различного рода данных, около 120, расположенных как в нашем контуре, так и вовне. Все эти данные необходимо накапливать и использовать – в сегодняшних реалиях это один из активов наравне с материальными. На что-то уже есть зрелый запрос у бизнеса, в каких-то случаях мы пытаемся помочь такой запрос сформировать и развить, а иногда сохраняем данные «на будущее», чтобы иметь готовый архив, когда потребность сформируется.

Наша история была типичной для многих. Финансово-экономические службы хотели иметь «источник правды» по основным метрикам функционирования бизнеса. Мы начали формировать классическое корпоративное хранилище данных. Потом оно постепенно начало использоваться в аналитике. При появлении проектов, связанных с глубокой аналитикой, инфраструктура данных начала разрастаться: появилось озеро данных, виртуализация данных, каталог данных и т.д. У нас появилось много хранилищ: четыре доменных хранилища, источники для корпоративной отчетности, а также локальные хранилища в дочерних компаниях. Данные требовалось демократизировать и сделать доступными для использования бизнесом. Потребности стали возрастать, и появилась необходимость в создании полноценной платформы для работы с данными.

— Как пришло понимание, что компании необходима корпоративная платформа данных? Что не устраивало в сложившейся ситуации, какие проблемы требовалось решить?

В 2018–2019 годах у нас начали появляться в большом количестве различные проекты, основанные на технологиях машинного обучения, очень емкие по части данных. Возникали сложности различного характера: было непонятно, где данные находятся, какими данными нужно пользоваться в том или ином случае, длительное получение доступа, нестандартные процессы согласования доступа к различным источникам. Кроме того, бизнес вырос с точки зрения зрелости и культуры работы с данными. В большинстве бизнес-направлений появились аналитические подразделения, которые располагали не только потребностью использования более продвинутых решений, но и навыками работы с ними.

Пришло понимание, что нам нужно обеспечить более дружелюбный инструментарий, сократить время предоставления данных на всех этапах – поиск, получение доступа, предварительная подготовка, доставка и т. д. С другой стороны, мы понимали, что у нас большое количество хранилищ и источников данных, которые нужно как-то описать, демократизировать и предоставить в пользование независимо от уровня пользователя.

— Какие цели были поставлены? Какие принципы требовалось соблюсти при построении платформы?

Если говорить об измеримых целях, то в первую очередь это снижение длительности выполнения задач, связанных с данными, – то есть поиск, получение доступа, исследование и подготовка данных. Побочная цель, которая также измерима, – это снижение трудозатрат сотрудников на те же задачи. Мы провели внутреннее исследование и увидели, что пользователи-аналитики тратят на перечисленные задачи около 20-30% своего рабочего времени. Кстати, некоторые компании такие трудозатраты оценивают в 70%. Мы хотели именно работать над этими показателями чтобы снизить время разработки наших внутренних и внешних продуктов.

Качественно мы хотели данные как можно больше демократизировать, как можно лучше их подготовить под самостоятельный формат работы, под потребителя различного уровня – от бизнес-аналитиков до дата-сайентистов и даже дата-инженеров. Каждому должен быть предоставлен подходящий интерфейс доступа к данным и необходимая ему информация.

— Какие основные части включает платформа, на каких инструментах реализована?

Платформа получилась многослойная, при этом она позволяет предоставлять данные под различные нужды – классический self-service на SQL, для корпоративной отчетности, для использования в Python-скриптах или поставки данных в приложения.

Первым компонентом, через который проходит пользователь, – каталог данных, он обеспечивает функции как репозитория метаданных, так и информационного портала с реестрами имеющихся у холдинга данных. Благодаря каталогу данных пользователь может осуществлять поиск необходимых ему объектов, как с помощью технических наименований, так и на основе связи таких объектов с терминами в корпоративном глоссарии. Кроме поиска, каталог позволяет получать много другой технической и бизнес-ориентированной информации об объектах. Также важно, что каталог данных является центральным инструментом компании для ведения родословной данных (маршрут движения данных по системам), категорирования объектов (персональные данные, коммерческие данные и др.), поддержки работы дата-стюардов и других процессов управления данными.

Следующий этап – доступ и использование найденных данных. Для этого используется технологии виртуализации данных, которые позволяют объединить все источники в рамках одного веб-интерфейса и обеспечивают работу с ними через удобный всем потребителям язык SQL. Виртуализация дает нам возможность в одном инструменте объединять между собой данные, вне зависимости от технологий, на которых построены отдельные хранилища и без необходимости загрузки их в промежуточные хранилища. Это оказалось очень ценным как с точки сокращения времени доступа к данным, так и с точки зрения их снижения затрат на их обработку, а также значительно упростило для бизнес-аналитиков возможности использования данных, например, в корпоративном озере данных или наборе доменных хранилищ.

Транспорт данных в платформе обеспечивает шина данных – она не только позволяет организовывать потоковые данные, в ней также автоматизировано большинство рутинных операций – например, создание топиков, предоставление к ним доступов, настройка мониторингов и проверок

Одно из хранилищ – наше корпоративное озеро данных – также создавалось как компонент платформы. Мы используем озеро данных не как единственное централизованное хранилище, а как дополнительный компонент нашей общей инфраструктуры данных. Оно выполняет роль архива «сырых» данных организации, а также хранилища «холодных» данных.

Нужно также упомянуть, что в корпоративную платформу данных также входят доменные хранилища данных, реализованные по концепции Data Mesh.

— Каковы сроки реализации проекта, какими силами он проводился?

Проект по объединению всех хранилищ в единую платформу начался в 2019 году. Сейчас у нас все компоненты, кроме шины (она в опытной эксплуатации), введены в промышленную эксплуатацию и уже имеют свой набор пользователей и активно функционируют. Могу отметить, что работы реализованы очень скромной командой из восьми человек, занимавшихся платформенными сервисами, не считая сами хранилища. Мы смогли внедрить два коробочных решения, создать два собственных, интегрировать это всё между собой и с хранилищами.

— В чем «фишки» созданного решения, чем можно гордиться?

Самое яркое – это виртуализация данных. На отечественном рынке не так много примеров применения виртуализации данных, и я считаю наш кейс одним из наиболее успешных. Очень большое количество довольных пользователей отмечают, что теперь они могут значительно быстрее решать свои задачи по ad-hoc-аналитике за счет возможности объединять данные из разных источников в рамках одного SQL-запроса.

Кроме того, аналитикам теперь не нужно многократно запрашивать доступ к различным хранилищам и объектам – всё доступно в одном месте. Такого результата мы добились путем применения практик Data Governance. Чтобы соблюдать политики безопасности и не допустить хаотичного доступа к критичным данным, нами была проработана особая матрица доступов, которая позволила разграничить доступ к данным на основе доменов, возможности доступа к персональным данным, возможности доступа к коммерческим данным. Все работает таким образом, что достаточно запросить один раз доступ к интерфейсу виртуализации, указав интересующие домены и категории данных, – после согласования данные сразу будут доступны, причем при появлении новых объектов в хранилищах и источниках, доступ к ним появляется автоматически.

Также важно отметить, что такой функционал платформы стал доступен благодаря работе с метаданными в каталоге данных – она позволяет нам применять нашу матрицу доступов на уровне отдельных объектов, без необходимости регулировать доступ к источнику целиком. За счет того, что мы подключили все необходимые хранилища к каталогу данных, мы смогли увидеть все объекты с данными и категорировать их. Теперь мы знаем, где у нас находятся, например, персональные данные, а где – коммерческие. Это позволяет нам тонко настраивать политики безопасности для этих объектов, автоматизировать процессы по разграничению доступов, корректно назначать владельцев данных.

— Децентрализованный подход к управлению данными (Data Mesh) требует от подразделений определенной зрелости, в том числе культурной. Какие организационные изменения и мероприятия потребовались?

Нельзя сказать, что все было гладко с первого же дня. Data Mesh изначально требует налаженного внутри компании продуктового подхода. Важно воспринимать создаваемые платформы не просто как информационную систему, а как продукт, и работать с ним, как с полноценным продуктом – это несет в себе как плюсы, так и минусы. Один из таких минусов мы прочувствовали на себе – каждое отдельное хранилище получалось слишком обособленным, и возникали проблемы с синхронизацией планов развития, распределением данных по доменам, дублированием и сложностями в объединении данных.

Сейчас мы видим необходимость лучше структурировать работу доменных хранилищ не только как отдельных продуктов, но и как элементов одной платформы. Создание и реализация корпоративной модели данных в доменных хранилищах – это один из проектов, над которым мы будем работать в будущем, и мы рассчитываем, что он поможет нам достигнуть синергии между доменными хранилищами. Такой подход, действительно, требует определенной зрелости, в том числе от офиса данных.

— Как реализовано автоматическое категорирование данных, какой точности удалось достичь, какую роль она играет?

Мы хорошо продвинулись в этой теме и продолжаем исследовать ее. Сейчас мы от ручного категорирования перешли к полуавтоматическому. Техническими средствами каталога данных мы составляем первичную выборку объектов, в которых потенциально содержатся персональные данные, и после этого дата-стюарды могут подтверждать корректность соотнесения данных по категориям. Мы уже начали работать над созданием моделей для нахождения персональных данных в примерах записей из объектов, но даже при высокой точности таких моделей вряд ли мы сможем полностью отказаться от валидации человеком.

Корректное категорирование, как я уже сказал, очень важно для автоматизированного применения корректных политик безопасности к объектам с данными, что позволяет нам значительно упрощать процесс получения доступа к ним и снижает риски утечки персональных данных.

— Насколько ощутимым стало сокращение времени доступа к данным?

Мы добились сокращения времени получения данных на 15%. Дальше мы видим простор для действий как через работу над эффективностью команд, которые создают витрины данных и подключают новые источники, так и через предварительную подготовку данных в доменных хранилищах для использования инструментов self-service. Если потребитель сможет решить самостоятельно свою задачу, то это тоже принесет большую пользу.

— Как велико число аналитических задач, уже сейчас решаемых бизнес-пользователями самостоятельно?

Сейчас, когда пользователи имеют возможность самостоятельно находить и исследовать данные, некоторые задачи они действительно предпочитают решать в режиме self-service. Например, это задачи создания единого профиля клиента, персонализация коммуникаций, мониторинг удовлетворенности клиентов, fraud-аналитика программы лояльности, исследование новых маршрутов – там уже активно используется функционал нашей платформы.

— Прозрачность активов данных подразумевает возможность их капитализировать и монетизировать. Какие сценарии возможны?

Мы как офис данных сейчас только начинаем работать над этими вопросами. Мы хотим определить набор критичных активов данных, которые у нас есть, и понять, где мы их применяем или где их можно применить. Обеспечив видимость всех активов данных, мы получили картину в целом и будем иметь лучшее понимание возможностей для их монетизации.

Говоря про монетизацию, мы имеем в виду, что рассматриваем возможность использования данных в каких-то проектах типа создания цифровых двойников или предиктивного ремонта двигателей на воздушных суднах. Очевидно, путем своевременного обслуживания мы сокращаем потребление топлива – явная монетизация данных. Другой вариант – возможность более точечного, персонализированного предложения для наших клиентов, что позволит увеличивать выручку. Также мы в перспективе рассматриваем возможность партнерских проектов с другими игроками на рынке.

Еще одним направлением нашей деятельности будет являться капитализация активов данных: например, необходимо понимать, сколько нам стоит владение тем или иным объектом данных.

— В каком направлении будет развиваться платформа данных S7 Airlines?

Первоочередная задача – как можно более тесная интеграция всех компонентов платформы между собой. Кроме того, важно внедрение практик управления метаданными внутри самих хранилищ и шины данных для того, чтобы выстраивать более точные маршруты движения данных, лучше понимать характеристики активов данных, которые доступны в платформе. Мы рассматриваем развитие системы с точки зрения тесной интеграции – например, каталога данных с системой виртуализации, системы виртуализации с источниками, каталога данных с BI-системой и так далее.

Также мы видим возможность развития нашей платформы в плане централизации работы с качеством данных – это следующий этап, над которым мы будем работать.