Прозрачность и доступность данных в хранилище становится важнейшим условием эффективной реализации любых цифровых проектов. Ошибки во входных данных для анализа или моделирования, либо неверная интерпретация данных ведут к ошибкам в производных бизнес-решениях. Банк «Уралсиб» создал единый бизнес-глоссарий – полноценно работающий инструмент, служащий источником информации о данных, доступных в хранилище, методиках их формирования и трансформациях данных от источников до витрин. О реализации этого проекта рассказал Игорь Гончаров, руководитель службы управления данными банка «Уралсиб».
— Как и почему банк начал этот проект? В чем заключались проблемы?
В 2018 году наш банк начал работы по созданию нового хранилища данных (Data Warehouse, DWH). Мы провели комплексный аудит старого хранилища и подготовили обзор лучших, самых успешных рыночных практик по построению банковских хранилищ данных. Новое хранилище должно было соответствовать классической схеме с тремя уровнями хранения данных: слой оперативных данных (Operational Data Store, ODS), уровень детальных данных (Detail Data Store, DDS) и слой витрин данных (Data Marts). Кроме того, оно должно было иметь зафиксированную концептуальную архитектуру, стандарты разработки, артефакты документирования и все остальные атрибуты хранилища корпоративного класса.
Начиная проект «с нуля», мы были убеждены: поскольку мы инвестируем в новое хранилище, оно должно предусматривать решение ключевых задач Data Governance, в том числе ведение единого бизнес-глоссария. Правление банка поддержало эту идею.
— Какие задачи требовалось решить?
Прежде всего, нам требовалось обеспечить «единую версию правды», причем с нескольких точек зрения. Во-первых, это понимание источников происхождения данных в хранилище. Во-вторых, это единые методики формирования и расчета данных. Команда DWH должна контролировать единство методик, а в случае возникновения различных требований к методикам расчета обеспечивать четкое отображение в бизнес-глоссарии этих отличий. В итоге должно быть единое бизнес- и техническое представление, какие показатели используются, как они должны быть рассчитаны и как на самом деле они реализованы в DWH и в процессе перемещения данных в него. Это также должно служить основой для единого подхода к управлению качеством данных
Наконец, продвинутые аналитики и разработчики должны получать одновременный доступ к data lineage, основанному на данных решения Informatica Metadata Manager.
— Какими силами реализовывался проект?
Проект построения хранилища в целом реализовывался совместной командой банка и подрядчиков под нашим полным методологическим и архитектурным контролем. Сопровождение осуществляется нашей собственной командой. Работы по созданию единого бизнес-глоссария проводились силами выделенного сотрудника из команды DWH банка на платформе Informatica Business Glossary. Экспертную консультацию в рамках проекта обеспечила компания DIS Group.
— Что было самым сложным для вас при реализации этого проекта?
Самым сложным и важным было прийти к пониманию, что единый бизнес-глоссарий DWH – это не некий идеальный абстрактный образ того, как тот или иной показатель должен выглядеть с точки зрения Википедии или регуляторных требований. Это инструмент, дающий прикладной ответ на вопрос, какие данные доступны в хранилище, каковы их источники, как они рассчитываются.
— Какими именно средствами вы боретесь за качество данных?
У нас создана система контроля качества, включающая в себя инструмент в виде модуля Data Quality. Работу системы обеспечивает ответственное подразделение – группа контроля качества данных, а также стюарды данных по основным бизнес-процессам, в результате которых осуществляется генерация и модификация данных в системах источниках. Кроме того, создан реестр общебанковских и пользовательских проверок качества данных. По ним действует регламент разбора инцидентов и автоматически формируется визуализация уровней качества данных.
— Какие результаты достигнуты?
Бизнес-глоссарий стал основным инструментом получения информации о новых данных в витринах хранилища. В настоящее время к нему подключены свыше 100 аналитиков, ответственных за формирование отчетности и ad-hoc аналитики в своих вертикалях. Срок получения доступа к новым данным сократился до нескольких часов
— Как изменились процессы доступа к данным?
В бизнес-глоссарии содержится вся информация, позволяющая оперативно сформировать заявку на доступ к данным: нейминг витрины, нейминг сущности и атрибутов, а также владелец витрины, согласующий доступ.
— Какой эффект оказывает сокращение показателя time to data на реализацию бизнес-проектов?
Все аналитические подразделения имеют максимально удобный инструмент поиска данных в хранилище для принятия решения по их использованию. Скорость получения данных радикально выросла. При этом важно, что пользователь получает доступ к четко описанным данным, находящимся на централизованном сопровождении у отвечающей за них команды. Все это позволяет реализовывать генерацию и проверку бизнес гипотез, а также стартовать организацию новых проектов, основанных на данных, максимально оперативно и гибко.
— Какое место занимает проект в общей стратегии Data Governance, как он связан с другими проектами?
Новое хранилище – единый источник получения данных всеми пользователями банка, а также интеграционными сервисами и проектами. Исключением, естественно, являются случаи, когда требуется интеграция в реальном времени. В этом случае применяются решения, не затрагивающие хранилище.
— В каком направлении будет развиваться проект?
Следующим этапом планируется использовать сервис единого бизнес-глоссария для описания данных не только в хранилище данных, но и в BI-контуре банка.