Развитие экосистемы «Сбера» потребовало перехода на новый уровень организации управления данными: возникла необходимость предоставить к ним доступ широкому кругу пользователей внутри компании и реализовать работу с данными как сервис. Нужно было дать пользователям возможность самостоятельно искать и заказывать данные, а кроме того, обеспечить автоматизацию процессов data governance и безопасности. Речь идет о создании «единого окна» доступа к данным, объем которых уже превысил 100 Пбайт.
Решением проблемы стало внедрение разработанной системы «Супермаркет данных», в рамках которой пользователь, работая с каталогом данных «Сбера» с применением поиска на естественном языке, может заказывать данные разово или получать их в виде регулярной поставки. При этом пользователь освобожден от выполнения служебных рутинных операций, связанных с получением доступа, изучением инфраструктуры и структуры данных и т. п., — все процессы централизованы и лежат «под капотом» клиентского сервиса.
О создании «Супермаркета данных» рассказали номинанты премии Data Award 2022 Борис Рабинович, старший управляющий директор — директор Департамента управления данными Сбербанка, CDO «Сбера», и Мария Юшанова, начальник Управления распространения данных Сбербанка.
— Каким был процесс получения данных пользователями раньше? В чем заключались ключевые проблемы?
Борис Рабинович: Для того чтобы начать использовать данные, сначала требовалось понять, где они расположены. И в банке, и в любой другой крупной компании есть множество учетных, клиентских и прочих систем. Аналитики должны были выяснить, где можно раздобыть необходимые данные, и обратиться за доступом к ним. После оформления всех необходимых заявок и их согласования приходилось разбираться со структурой данных и разрабатывать ETL-процесс для загрузки информации в то место, где будут строиться бизнес-решения.
Одно дело, когда такая проблема касается десятка или даже сотни сотрудников, и совсем другое — когда их счет идет на тысячи. Поэтому появилась идея оптимизировать и автоматизировать этот процесс: создать описание данных, их структурированный каталог, облегчить заказ данных, упростить доступ к ним. Но самое важное — заменить разработку тысяч ETL-процессов на единый сервис поставки данных. В масштабах «Сбера» это кратно сокращает трудозатраты и время доступа к данным. Важно отметить, что данные собраны в полном соответствии с действующим законодательством, с разрешения клиентов, и хранятся и обрабатываются они только в обезличенном виде.
— В чем суть созданного решения?
Б.Р.: Цель реализации нашего дата-сервиса — радикальное сокращение времени на доступ к данным, а также упрощение их поиска и потребления. Все происходит аналогично тому, как мы создаем заказ в интернет-магазине: находим нужный «товар» через поисковую строку на портале или в каталоге, добавляем в «корзину» и оформляем разовую или регулярную доставку.
Если раньше для получения данных требовался опытный ИТ-специалист, то теперь процесс доступен любому сотруднику. Более того, прежде даже специалисту на поиск, доступ и выгрузку данных требовалось до 60 дней, а сейчас процесс занимает не более трех часов.
Пользователь может заказать данные в пакетном режиме (разовая поставка, регулярная поставка по времени или по событию) в виде снэпшота или инкремента. Кроме того, работает потоковая поставка данных в режиме, близком к реальному времени.
— Из каких компонентов состоит «Супермаркет данных»?
Мария Юшанова: Важно понимать, что «супермаркет» — не только магазин с данными, где осуществляется заказ и дистрибуция данных. Это конгломерат, который обеспечивает все сопутствующие сервисы.
Супермаркет состоит из трех крупных частей: портал, бэк-офис и ядро, где происходит выполнение и обработка поступающих заказов. Обычно клиентский путь таков: пользователь заходит в супермаркет, видит структурированный каталог либо пользуется поиском на естественном языке — и поисковик предлагает ему необходимые дата-сеты с описанием. После этого пользователь набирает себе «в корзину» необходимые данные, при необходимости накладывает на них фильтры. Если у пользователя еще нет доступа к этим данным, ему не нужно создавать заявку на доступ — и в этом ключевое изменение: она будет сформирована автоматически и обработана по соответствующим правилам, в зависимости от категории данных.
— Сколько времени потребовалось на реализацию проекта, какие этапы он включал?
М.Ю.: Мы начали этот проект еще в 2019 году — с сессии дизайн-мышления. Мы видели возможности для ускорения доступа к данным и думали над тем, как их можно оптимизировать, — именно так и родилась идея супермаркета данных. Далее мы разработали MVP, который работал сначала только на пакетные загрузки и лишь внутри платформы Hadoop. Следующим этапом шло усложнение функциональности: мы развивали доставку на разные площадки, подключали различные системы хранения, увеличивали частоту поставок, охватили потоковые данные. Третий этап включал развитие с точки зрения управления доступом и правил data governance.
В этих направлениях зачастую работа шла параллельно — у нас всегда амбициозные цели: требуется всё, сразу и качественно. Поэтому понадобился еще год после появления MVP.
Мы увеличиваем ассортимент данных, расширяем «зоны» доставки данных, повышаем вариативность поставок и оптимизирум многое другое. На данный момент у нас 57 интеграций, включающих логистику от поставщика до потребителя в разных режимах в сопровождении обеспечивающих сервисов, таких как сервисы защиты данных, федеративного доступа, сервисов поставки и так далее.
— Расскажите об этапе дизайн-мышления.
М.Ю.: Это наша нормальная практика, появившаяся с переходом на Agile и ставшая важнейшей частью всех проектов. Таким образом совместно с заказчиком мы проговариваем не только запуск крупных продуктов, но и любые достаточно крупные изменения в них. Это позволяет сделать сервисы правильнее и удобнее, учесть все возможные нюансы, взглянуть на проблему со всех точек зрения. Кстати, в таких сессиях участвуют не только бизнес-пользователи, но и сотрудники служб безопасности и сопровождения.
Основные пожелания были очевидны: чем быстрее доступ к данным, тем лучше, и при этом решение не должно обойтись слишком дорого. Но именно в процессе дизайн-мышления, в котором участвовали разные категории потребителей, был найден оптимальный вариант взаимодействия пользователя с сервисом — принцип самообслуживания. Кроме того, мы выявили потребность в поиске данных на естественном языке и в наличии рекомендательного сервиса.
— Какие организационные изменения потребовались?
Б.Р.: Функции CDO в банке уже много лет, все процессы и политики уже давно выстроены. Поэтому в SberData была просто выделена команда, отвечающая за этот инструмент.
— Как «Супермаркет данных» стыкуется со стратегией управления данными, какое место в ней занимает?
Б.Р.: Это ключевой элемент в стратегии управления данными, и подразделение кибербезопасности нас в этом поддерживает. «Супермаркет» — единая точка доступа к данным в контуре «Фабрики данных» (единой платформы для работы с данными), и нет никакого другого способа получить данные, кроме как через него. Здесь проходят все процессы, связанные с правами доступа, распространением данных.
В рамках платформы сам бизнес-заказчик может увидеть все, чем он владеет, какие у него есть подписки, каков их статус. Аналогично, все службы могут понимать, кто к каким данным обращается, какие у кого права. Это краеугольный камень работы с данными.
— Сколько людей работает над этим продуктом?
Б.Р.: В SberData за «Супермаркет данных» отвечают около 40 человек.
— Поиск на естественном языке в каталоге данных — действительно громадный шаг навстречу пользователям. Как это решение реализовано, что оно собой представляет?
М.Ю.: В первую очередь данные должны быть описаны, причем строго по стандартам. У нас есть продукт «Карта данных», в нем владельцы данных получают физическую модель данных, за которую отвечают, и описывают эти данные на естественном языке по определенным стандартам. Далее описание данных выгружается в «супермаркет», и через поиск, реализованный на ElasticSearch, становится доступным пользователям.
Обычно пользователи не вводят запрос полностью, а указывают, например, «кредиты юридических лиц». Этого достаточно для того, чтобы подтянуть информацию по всем необходимым таблицам и атрибутам.
— На какие результаты от «Супермаркета данных» рассчитывали, как они соотносятся с практикой?
Б.Р.: Важным эффектом стала демократизация данных, именно на нее мы рассчитывали больше всего. Как и в случае с любым хранилищем, вопрос финансового эффекта — очень спорный, на него вряд ли кто-то сможет ответить. Вероятно, его можно оценить через человеко-дни в «условных миллиардах» для банка. Но ведь речь идет не столько об экономии времени работы специалистов, сколько об ускорении процессов и сокращении времени вывода продуктов на рынок. Поэтому мы больше склонны рассматривать эффекты с точки зрения ресурсов, занятых в работе с данными, и задействованной в этом инфраструктуры.
У платформенного подразделения есть преимущество в том, что мы можем принять проактивное решение о развитии инструментов управления данными, которые, по нашим оценкам, должны быть востребованы бизнесом. И бизнес-подразделения (возможно, после некоторых колебаний) действительно впоследствии начинают их применять.
До реализации «Фабрики данных» мы использовали «озерца» данных. Они были плохо связаны между собой, имели собственную инфраструктуру и процессы загрузки данных, сопровождения и разработки. Когда внедряется централизованный инструмент, для меня как CDO, отвечающего за платформу, важна его востребованность. И я вижу, что на платформу приходят десятки, сотни, а затем и тысячи человек — все сообщество потребителей данных переходит на целевую инфраструктуру. Ключевой драйвер этого «великого переселения» — продукты, которые существенно упрощают жизнь пользователей. Этот комплекс автоматически затягивает в себя все наше комьюнити D-people — дата-сайентистов, аналитиков и инженеров. Мы на это рассчитывали и ровно это получили в итоге. Более того, возможно, мы недооценили востребованность «супермаркета» и сейчас видим рост потребления сервисов, существенно опережающий заложенные темпы.
— А какими количественными результатами можете похвастаться?
М.Ю.: На текущий момент через «Супермаркет данных» по подпискам осуществляется более 70 тыс. поставок данных ежемесячно для более чем 2700 пользователей, и рост продолжается. Мы добились огромных результатов в высвобождении времени наших сотрудников от рутинных операций. С внедрением тегирования данных мы автоматизировали доступ к ассортименту. А после добавления подписки в корзину и разрешенного доступа к данным можно получать данные с задержкой от 15 минут до 3 часов, в зависимости от их объема.
Важно отметить, что платформа «Супермаркета данных» обеспечивает потоковую поставку данных в режиме, близком к реальному времени. В планах — довести производительность системы до 10 млн операций в секунду, что позволит вывести, например, рекомендательные системы на качественно новый уровень.
— Насколько радикальным стало сокращение времени разработки продуктов?
М.Ю.: Поиск данных и доступ к ним занимал несколько недель, и еще полтора месяца — разработка процесса ETL. Это время могло различаться в зависимости от объема и вида данных, а также других факторов, но в среднем составляло около трех месяцев. Именно о таком сокращении сроков реализации проектов идет речь, и, с учетом количества запросов на данные, это гигантские объемы.
— В результате внедрения «Супермаркета данных» у всех пользователей появилась возможность попробовать себя в новой роли — специалиста по работе с данными. Насколько востребованным это оказалось в реальности?
Б.Р.: ИТ-специалисты могут сами извлечь необходимую часть данных с помощью SQL-запроса и проанализировать их. Но ведь большинство сотрудников не обладают такими знаниями. Поэтому было важно дать им инструмент, позволяющий без какого-либо программирования и чьей-либо помощи получить данные и заняться их анализом. Благодаря этому нам действительно удалось привлечь новые группы бизнес-пользователей.
Важность фактора удобства подтвердил резкий скачок объема потребляемых данных. Планируя инфраструктурные мощности для «супермаркета», наши специалисты проанализировали число потенциальных пользователей, наиболее востребованные данные и частоту их потребления. Однако почти сразу же мощностей перестало хватать. Пользователи стали заказывать кратно больше данных, чем делали это обычно. Анализ причины оказался прост: людям было интересно сделать заказ, положив данные в корзину легко и быстро.
— Было ли что-то еще, что вызвало ваше удивление?
М.Ю.: Все же процесс был выстроен так, что вначале мы пообщались с нашими пользователями, узнали их потребности и пожелания и лишь затем их реализовали. Поэтому других сюрпризов, помимо скачка потребления данных, не было.
— В каком направлении будет развиваться проект?
Б.Р.: В дальнейшем предполагаем развивать клиентские пути и повышать удобство сервисов. Например, мы планируем реализовать функционал «джойнов» — объединять данные из разных источников. Мы видим, что в этом есть потребность: многие агрегируют информацию в собственных витринах или лабораториях. Если сотрудник кладет в одну подписку бухгалтерскую информацию и данные о сделках, то понятно, что в дальнейшем он будет объединять их между собой. Мы можем брать это на себя и сразу формировать джойн при предоставлении подписки. Это качественное улучшение — доставлять не только сырые данные для анализа, но и полуфабрикаты, готовые к применению.
Кроме того, мы прорабатываем внедрение нескольких стримов, связанных с искусственным интеллектом, — например, по прогнозированию объемов нагрузки, производительности и надежности логистической цепочки. Это позволит существенно улучшить клиентский опыт, повысить доступность данных и расширить круг их потребителей.