«Магнит»: качественные данные с виртуальным помощником | Вестник цифровой трансформации

Павел Шорохов, директор департамента по работе с данными, и Олег Молчанов, руководитель направления по метаданным и качеству данных сети «Магнит», – о повышении прозрачности информационных активов и роли доверия пользователей к данным для развития компании.

Сеть «Магнит» создала платформу управления данными. Среди целей проекта – оптимизация работы дата-сервисов и повышение прозрачности информационных активов, чтобы обеспечить доверие пользователей к предоставляемой аналитике. О масштабах проекта, его реализации и роли для развития компании рассказывают Павел Шорохов, директор департамента по работе с данными «Магнит», и Олег Молчанов, руководитель направления по метаданным и качеству данных, — номинанты премии Data Award.

- Что привело компанию к реализации проекта платформы управления данными?

Павел Шорохов: В компании около 10 тыс. пользователей данных. Они используют многоуровневую платформу, содержащую более 1 Пбайт данных (5 Пбайт с учетом кластеров Data Science). Более 2 тыс. пользователей обращаются напрямую к центральному элементу платформы – корпоративному хранилищу данных, – которое развивается уже 12 лет и содержит 420 Тбайт данных.

За это время система стала сверхсложной: в нее интегрировано чуть больше 200 систем-источников данных, а пользователи обращаются к 5 тыс. витрин данных. Такое количество разработанного функционала требует продвинутых возможностей для поиска нужной информации. А так как бизнес самостоятельно работает в пользовательских областях (так называемых «песочницах»), которых сейчас около 80, то потребовалось также повысить переиспользуемость объектов данных (информационных активов).

В середине 2022 года мы приняли решение об одновременном внедрении полного стека инструментов Data Governance & Data Quality и методологии работы с ними. Начав в ноябре, мы за полгода разработали, внедрили и опубликовали для целевой аудитории такие инструменты, как бизнес-глоссарий, каталог данных, автоматизированную систему контроля качества данных и виртуального дата-помощника.

- Какие задачи требовалось решить?

П.Ш.: Самое главное – требовалось оптимизировать работу дата-сервисов. Во-первых, ускорить поиск данных. Регулярно проводя опросы наших сотрудников, мы видели частые ситуации, когда пользователь не мог самостоятельно найти необходимые данные, которые есть в компании. Ему необходимо было пользоваться разрозненными сервисами, которые предоставляли отдельные подразделения. В итоге слишком много времени уходило на такие рутинные задачи, как отправка запроса на поиск данных, ожидание начала работы над таким запросом, собственно работа над запросом и другие дополнительные коммуникации. Большинство из этих задач можно и нужно было автоматизировать.

Во-вторых, было важно сократить время на разбор происхождения данных и анализ влияния изменений в данных, ускорить внедрение изменений. Дело в том, что системные аналитики, чей фокус в основном на развитии хранилища, в зависимости от задачи могли тратить на «ручной» разбор зависимостей от 2 до 16 часов, что имело негативное влияние на поставку изменений. Учитывая, что вся нужная информация уже существовала где-то в метаданных, мы понимали, что наша задача только организовать их удобное хранение и анализ.

Требовалось и уменьшить время запроса на доступ к данным. В среднем у наших сотрудников уходило около получаса на один такой запрос, что с учетом количества наших пользователей мы считали недопустимым. Необходимо было разработать более эффективный процесс и автоматизировать его.

Кроме того, было важно снизить расходы на поддержку существующих аналитических данных за счет выстраивания правильного пользовательского пути: сначала – self-service для поиска и понимания данных, а уже в случае возникновения вопросов — обращение к эксперту по данным в бизнесе или ответственным за реализацию. Также планировали снизить расходы через создание условий для переиспользования существующих наработок и сдерживания расширения «теневого ИТ».

Наконец, требовалось повысить качество данных за счет внедрения ответственности за данные и запуска операционной модели управления качеством данных. Но как повысить качество, если мы его даже не измеряли на тот момент? Поэтому сначала необходимо было обеспечить прозрачность информационных активов и знаний о них.

Таким образом, мы в целом планировали повысить доверие к существующей аналитике и оптимизировать способы ее получения, что является фундаментом развития data-driven культуры в компании.

- Какой подход был выбран?

Олег Молчанов: В процессе реализации инициативы применялись смешанные подходы как проектного управления, так и внедрения самого продукта со всеми релизными историями, приоритизацией бэклога и т.п. Но здесь хотелось бы выделить две ключевые организационные особенности, которые, на наш взгляд, имели эффект.

Внедрение методологии управления данными, включающее проектирование операционной модели (какие роли и за что отвечают) и регламентацию низкоуровневых процессов управления метаданными и качеством данных (как эти роли взаимодействуют), проходило нога в ногу с внедрением самих инструментов. По опыту внедрения таких решений ранее мы были уверены, что без методологической базы и четкого понимания пользователей, как и зачем им работать в предложенных инструментах, система не будет востребована пользователями, а значит в полном объеме заявленных эффектов не получить.

При внедрении крупных изменений очень важно создать коалицию: найти группу людей среди внутренних заказчиков, которые будут вести за собой остальных. Мы так и сделали, заручившись поддержкой одного из ключевых бизнес-блоков. Совместно с ним проходило обсуждение разрабатываемых процессов и обкатка всех первых наработок во внедряемых инструментах: процесс ведения бизнес-глоссария, выбор систем для каталогизации метаданных, валидация полноты и достоверности результатов сканирования метаданных, реализация первых проверок качества данных. Это помогло нам сделать коллег неформальным заказчиком проекта, заручиться их поддержкой и «живым примером» для дальнейшего тиражирования. Главный вывод – не внедряйте инструменты и процессы Data Governance & Data Quality в отрыве от реальности.

- Какие инструменты использовались?

О.М.: Мы использовали решения, продвигаемые DIS Group: бизнес-глоссарий, каталог данных, система управления качеством данных. Виртуальный помощник реализован с помощью собственной разработки. И в соответствии с нашей стратегией cloud first мы использовали инфраструктуру «Яндекс.Облако».

Созданная в результате платформа управления данными охватывает все промышленные данные компании, использующиеся в корпоративном хранилище данных и корпоративной отчетности.

- Что представляет собой созданное решение?

П.Ш.: Созданное решение — это единый портал пользователя данных, который можно условно разделить на несколько частей.

Во-первых, это портал для поиска данных и запроса доступов к ним. Одним словом – все, что нужно пользователю, когда он знает, зачем пришел. В этом случае ему нужно только помочь понять, где это находится, и получить доступ.

Далее, в портал встроен бизнес-глоссарий – своего рода «Википедия» про данные, где можно лучше понять значение найденных данных: изучить описание информационных активов, их место в корпоративной архитектуре данных, узнать, кто владеет данными и тому подобное. Теперь, когда пользователь обладает доступом к нужным ему данным, он хочет понять, насколько они соответствуют его ожиданиям – для этого существует модуль качества данных, который содержит дашборды и отчеты по качеству информационных активов.

Наконец, так как нашим порталом пользуются тысячи пользователей с самым разным уровнем подготовки, мы встроили в него обучающие материалы и дополнительно проводим семинары и публикуем вспомогательные материалы по работе с внедренными инструментами.

- Что такое виртуальный дата-помощник, какова его роль?

О.М.: Это чат-бот, «прикрученный» ко всем страницам платформы управления данными. Мы его с некоторых пор «забрендировали» и стали называть Data Assistant. В прошлом году о первых версиях и «внутрянке» продукта мы рассказывали в статье: Как устроен виртуальный помощник для дата-сервисов в «Магните».

Сейчас через Ассистента можно решить полный перечень вопросов, связанных в данными. Он поможет сориентироваться в том, что вообще доступно: какие есть порталы и инструменты работы с данными (например, наш собственный BI-инструмент – «Магрепорт»), найти основные статьи из базы знаний, найти своего дата-партнера, вступить в дата-комьюнити и многое другое. С его помощью можно сформировать из чата запросы на информацию, сообщить об инциденте, запросить доступ к данным или инициировать изменения ролевой модели. Еще одна функция – найти данные и связанные информационные активы по ключевым словам. Бот, в основе которого лежит простенькая ML-модель, сам подберет соответствующие вашему запросу витрины данных, аналитические отчеты, показатели и аналитики из глоссария, бизнес-процессы и информационные системы.

Важно, что этот помощник всегда под рукой: в платформе и в корпоративном мессенджере. В частности, он является связующим звеном для всех описанных ранее компонентов платформы Magnit Data. Через него же можно сообщить о проблемах с платформой, задать вопрос или предложить доработку.

- Что в ходе проекта было самым сложным? Какие уроки для себя вы извлекли?

O.М.: Самое сложное, как и всегда, – это люди. Точнее, изменение и дополнение существующих устоявшихся бизнес-процессов, по которым они привыкли работать. На первых этапах очень важно было суметь показать пользу от внедренных изменений и доказать, что потраченные усилия позволят сократить трудозатраты на рутинные задачи по работе с данными.

Главный урок – в таком проекте следует как можно раньше начинать обсуждать методологическую составляющую и договариваться об изменениях и зонах ответственности. Важно как можно больше рассказывать сотрудникам на всех уровнях про то, как меняются процессы, и почему это важно. Доносить, какую проблему решаем, и показывать, как повлияют изменения на производственный процесс. Конечно, все это нужно делать с использованием детально продуманных и визуально понятных материалов, а не только через объемный бизнес-процесс, описанный по стандартам компании.

- Что удалось лучше всего, а над чем еще предстоит поработать?

О.М.: Я считаю, что у нас хорошо получилось позиционировать новую платформу как экосистему по управлению данными для каждого, кто работает с данными и аналитикой. Для этого, помимо самого внедрения инструментов и связанных процессов, был исполнен огромный коммуникационный план: демонстрации в разных форматах для разной целевой аудитории, регулярные письма в корпоративной почте, мессенджере и других внутренних площадках о новом контенте, новой функциональности системы или новых бизнес-процессах.

Отдельный блок работ был посвящен омниканальности, где ссылки на нашу платформу появлялись во всех логичных для этого местах, чтобы создать продолжение пользовательского пути и дать определенную рекламу ресурса. Это ярлыки на рабочих столах у целевой аудитории, наличие ресурса на популярных сайтах в корпоративном браузере, автоподписи сотрудников нашего департамента, ссылки из корпоративной системы техподдержки, ссылки из архитектурного репозитория, когда речь идет о бизнес-сущностях и многое другое. Нам удалось научить смежные подразделения говорить словосочетание Magnit Data чаще, чем мы его произносим внутри команды.

Если говорить о том, чем еще предстоит заняться, то, безусловно, мы продолжим наполнять контентом бизнес-глоссарий и контролировать полноту и качество этого контента. Говоря простым языком, будем делать описание показателей, аналитик, сущностей по всей группе компаний и всем предметным областям. Это очень объемный труд, в который мы вовлекаем бизнес. Этот фронт работ мы планируем добить в 2024 году.

- Какие результаты достигнуты и ожидаются?

П.Ш.: План проекта на 2023 год был выполнен полностью. Все системы, а именно четыре компонента платформы – бизнес-глоссарий, каталог данных, автоматизированная система контроля качества данных и виртуальный дата-помощник – с полной функциональностью были поставлены бизнесу даже быстрее запланированного. Я считаю, что это получилось сделать во многом благодаря хорошо проработанному коммуникационному плану и вовлечению бизнеса, за что коллегам огромное спасибо. Для нас важно, что внутренняя команда «Магнита» приступила к самостоятельному развитию функциональности и наполнению контента сразу же после выхода системы в промышленный контур.

Инструменты уже востребованы: мы получили ежемесячную базу пользователей новых инструментов в размере 1 тыс. сотрудников, которые ежемесячно создают более 5 тыс. запросов на поиск данных. Мы ожидаем, что общая база наших пользователей составит примерно 3 тыс. сотрудников, и мы будем стремиться к тому, что со временем 80% из них будут посещать портал минимум раз в месяц.

Если говорить о контенте, то мы отсканировали и каталогизировали справочники MDM, витрины основного хранилища данных и двух дополнительных хранилищ. К каталогу данных для автоматического забора метаданных по расписанию подключено 12 систем. По ним теперь можно анализировать происхождение данных и проводить анализ зависимостей. Дополнительно пользователи получили более 7 тыс. описанных информационных активов.

На начало февраля 2024 года в системе автоматизировано более 110 проверок качества данных, которые вовлекли в процессы управления данными более 70 сотрудников на стороне бизнеса – владельцев данных, экспертов по данным, поставщиков данных. Инструмент вместе с внедренной операционной моделью и опубликованными бизнес-процессами систематизировал работу с данными в компании.

Система продолжает развиваться, растет количество пользователей и сценариев использования, подключаются новые системы-источники метаданных.

- Какое влияние это оказало на ежедневную работу сотрудников?

П.Ш.: Приведу несколько примеров изменений, произошедших после публикации портала.

Например, в 10 раз снизилось время, которое тратит сотрудник на запрос доступа к данным. Сейчас пользователь тратит менее минуты за счет выстроенного пользовательского пути в виртуальном помощнике и прозрачности ролевой модели в связке с описанными данными.

На 15% снизилось количество запросов на информацию, поступающих к централизованной команде развития корпоративного хранилища. Это достигнуто за счет доступного описания данных и сценариев самообслуживания в Magnit Data. Соответственно, мы оптимизировали трудозатраты на анализ и консультации дорогостоящих специалистов – системных аналитиков.

В среднем на 15% выросло количество активных пользователей корпоративного хранилища и нашей BI-системы «Магрепорт» за счет популяризации использования данных, снижения порога вхождения в инструмент и увеличения доверия к данным через визуализацию их «здоровья». Это косвенно говорит о росте data-driven культуры в компании.

Наконец, вдвое снижено время поиска данных за счет создания центрального интерфейса из нескольких компонентов: бизнес-глоссария, площадки данных и каталога данных. Этот расчет сделан на основании точечных замеров кейсов и опроса пользователей.

- А если говорить про работу дата-команды?

О.М.: Время реагирования на снижение качества данных уменьшено до одного часа, это очень серьезный результат. Ранее выявление проблем происходило по факту работы пользователей с данными, затем о проблеме сообщалось через внутренние системы к централизованной команде, а далее на поступившие инциденты реагировали в течение четырех рабочих часов на первой линии, плюс время на работы других участников процесса. Теперь же об отклонениях известно сразу всем участникам процесса одновременно: аналитикам КХД, экспертам по данным, поставщикам данных. Еще до начала рабочего дня они получают оповещения за счет автоматизированной системы контроля качества данных. Выстроены и регламентированы процессы реагирования на инциденты.

На 15% снижены трудозатраты аналитиков, занимающихся развитием и сопровождением КХД, на проведения анализа происхождения данных и анализа зависимостей при проектировании изменений в объектах данных.

- Пытались ли оценить эти эффекты в деньгах?

П.Ш.: Да, и если эффект, связанный с сокращением трудозатрат, легко считается (у нас есть стоимость человеко-часа и понимание того, насколько мы оптимизировали работу более 1 тыс. сотрудников), то интересней влияние на скорость и верность принятия решений. Менеджер теперь получает свой управленческий отчет раньше, а благодаря повышению качества данных повышается и качество управленческих решений, основанных на данных. Этот эффект посчитать сложнее, но очевидно, что в масштабах организации с более чем 360 тыс. сотрудников важность доверия к аналитическим данным сложно переоценить.

- Какую роль играет этот проект в развитии компании?

П.Ш.: Реализованный проект является фундаментом для другой стратегической ИТ-инициативы компании по импортозамещению технологий, на которых построена корпоративная платформа данных. При миграции на новую платформу важно понимать зависимости в исторически сложившемся хранилище, требования бизнеса к качеству данных, используемость данных. Создание новой платформы должно сопровождаться инструментами, обеспечивающими прозрачность новых информационных активов, и контроль качества данных на всех этапах жизненного цикла данных.

Также платформа управления данными Magnit Data является движущей силой внедрения операционной модели и процессов управления качеством данных компании.

- Каковы планы по развитию проекта?

О.М.: Фокус в первом квартале 2024 года – на стабилизации работы решения, отработке критичных для наших пользователей багов, автоматизации мониторинга работоспособности всех компонентов системы, выстраивании внутренних процессов реагирования на них. После «взрывного» внедрения и гонки во всех направлениях под конец прошлого года мы решили позволить себе такую паузу. Количество пользователей системы значительно выросло, а значит выросли и ожидания публики, и наша ответственность.

В целом на 2024 год планируется работа по нескольким направлениям. Это наполнение качественным контентом бизнес-глоссария в сопровождении связки концептуального, логического и физических уровней, а также контроль бизнес-процесса ведения бизнес-глоссария. Это разработка новых проверок качества данных для критических элементов данных по требованиям бизнеса – потребителей данных и владельцев данных. Будем проводить каталогизацию метаданных по строящейся у нас Корпоративной платформе 2.0 на новых технологиях. Планируется детальное изучение сценариев работы целевой аудитории, работа с продуктовыми метриками и обратной связью пользователей. Наконец, планируем разработку центрального упрощенного интерфейса для поиска информационных активов, рассчитанного на максимально широкий круг пользователей.