Три года назад ВТБ завершил два крупных присоединения – Банк Москвы и ВТБ 24. В результате в банке образовалась очень сложная архитектура аналитического ландшафта. Естественным образом на нем сформировались три крупных архитектуры, построенных на различных технологиях и обладающих функционалом различной степени зрелости. Получившееся наследие не устраивало ни ИТ, ни бизнес: сразу же столкнулись с дублированием и разрозненностью данных, как следствие – высокой стоимостью разработки и долгим временем создания новых продуктов.
Кроме того, используемый технологический стек стремительно устаревал. Для ряда аналитических компонентов применялся комплекс Oracle SuperCluster, и еще большее число продуктов базировалось на Oracle BigData Appliance. Окончание жизненного цикла обоих решений стало огромной проблемой и привело к необходимости масштабной миграции ИТ-инфраструктуры на новую платформу.
Банк решился на создание единой полноценной платформы данных, которая должна включать в себя несколько компонентов. Во-первых, это часть, отвечающая за загрузку и управление данными оперативного хранилища данных. Вторая часть – хранилище данных с единой бизнес-моделью, включающее специализированные витрины для ad-hoc аналитики и банковских приложений, витрины с оперативными данными, пользовательские песочницы и т. д. Третья важная составляющая – озеро данных, ориентированное на задачи машинного обучения и data science, а также часть задач отчетности.
Этот проект стал первым опытом ВТБ по импортозамещению ключевой системы, участвующей в процессе подготовки отчетности для регулирующих органов. Осуществляемый переход призван обеспечить ВТБ полную свободу цифрового развития.
О создании центрального хранилища аналитических и отчетных систем рассказывает Ирина Петровская, вице-президент, заместитель руководителя департамента управления и координации технологических изменений Банка ВТБ и номинант премии CDO Award.
- Что получает бизнес от реализации проекта, кроме экономии на лицензиях и унификации инфраструктуры?
Бизнес получил ускорение расчета форм от двух до 11 раз, а также значимую оптимизацию стоимости владения. Мы планируем наращивать функционал этой системы. В будущем будет расти кумулятивный эффект от внедрения такого решения.
- Как происходил процесс выбора инструментов для построения новой платформы? Какие варианты рассматривались?
У нас было много критериев отбора: функциональность, производительность, качество поддержки, отсутствие санкционных рисков, безусловная оптимизация стоимости владения, возможность закупки решения в виде ПАКа (программно-аппаратного комплекса), возможность масштабирования, надежность. Немаловажны и планы по развитию платформы, на которые мы могли бы влиять как банк или как группа ВТБ. Наши пожелания должны учитываться – в новых технологичных платформах это достаточно важный критерий. Таким образом, наш выбор остановился на продукте Arenadata.
- Выбрав отечественное решение, банк обезопасил себя от санкционных рисков. Но не бывает проектов совсем без риска – какие новые риски вы приобрели вместе с новой платформой?
Действительно, на 100% захеджировать риски сложно. Но компания Arenadata достаточно широко представлена на российском рынке, у них очень функциональные решения и планы по развитию платформы, которые компания выравнивает вместе с нами.
- ВТБ – очень крупный заказчик со специфическими требованиями, поэтому вендоры часто дорабатывают свои продукты, чтобы их удовлетворить. Как при этом решаются вопросы интеллектуальной собственности: все права на доработки отходят банку или есть какой-то механизм включения их в широкий оборот?
Действительно, большинство наших разработок попадают под понятие интеллектуальной собственности и переходят к нам. При взаимодействии с Arenadata мы заранее договорились, какая функциональность будет включена в базовую поставку и дальше войдет в новую версию продукта. Такой подход достаточно выгоден и для поставщика, и для нас. В результате мы получаем базовый продукт, который широко поддерживается, а ошибки, которые возникают у других заказчиков, могут быть устранены у нас обычным патчем. Специализированная же версия под заказчика обычно налагает определенные трудности в поддержке и приводит к удорожанию решения.
- Как в целом банк относится к продуктам open source – это осознанная стратегия или вынужденный шаг? Выступает ли сам банк контрибьютором в проектах open source?
Банк положительно относится к открытым решениям: мы их часто используем сами, а также пользуемся услугами компаний-партнеров, которые обеспечивают для нас доработку таких решений до enterprise-уровня и обеспечивают соответствующую поддержку. Решение Arenadata является классическим примером такого подхода: приобретенный комплекс состоит из набора продуктов open source, которые компания доработала до корпоративного уровня. В частности, решены вопросы с резервным копированием, с восстановлением после катастроф, с информационной безопасностью.
В случае с другими продуктами мы сами становимся разработчиками и дорабатываем open source решения.
- Вместе с платформами устаревают знания по их использованию. Но если замена софта это в итоге лишь вопрос денег, то едва ли можно заменить всех специалистов, привыкших к старой системе. Как был организован процесс миграции с человеческой стороны?
Действительно, при миграции на новую платформу, на новое решение, у нас могут частично меняться интерфейсные слои, с которыми привыкли взаимодействовать бизнес-заказчики. Прежде всего мы постарались радикально не менять эти интерфейсные слои, чтобы сохранить некую преемственность решений в глазах пользователей. Кроме того, одновременно с началом работы над новой платформой, мы активно разрабатывали проект по системе управления данными, которая позволяет легко находить и определять, где какие данные доступны и в каких интерфейсных слоях, в какую систему они попадают. Эта система будет выступать справочником по данным, что значимо облегчает процесс миграции и перестроения на новую платформу.
- Кто пользуется системой – только профессиональные аналитики и дата-сайентисты или более широкий круг сотрудников? Как в банке развивается культура данных?
Если говорить только про проект по внедрению системы отчетности, то да, здесь действительно большую часть пользователей представляют профессиональные аналитики и сотрудники, работающие непосредственно с формами при подготовке их для отправки в ЦБ РФ.
Однако, если мы говорим в целом про платформу Arenadata и наши планы по их использованию, то это будет максимально широкий круг пользователей: дата-сайентисты, аналитики и просто потребители данных, которые видят данные через порталы, через привычные интерфейсы на планшетах с мобильными клиентами. С точки зрения культуры работы с данными, банк делает очень широкие шаги. В последнее время у нас значительно усилилась функция data science. Работая с продвинутой аналитикой, банк создает огромное количество моделей, и в целом у нас data-driven-подход практикуется все шире и шире. Это касается всех направлений деятельности: и работы на клиентских фронтах, и деятельности функциональных подразделений, таких как риски, финансы, бухгалтерия и т. д.
- Как обеспечивается качество данных? Какие методики и инструменты для этого используются?
По работе с качеством данных у нас организован большой процесс, для этого существует система автоматического контроля качества загруженных данных, которая автоматически в ежедневном режиме анализирует и подготавливает дашборды по качеству данных. После этого полуавтоматическим методом, с применением роботизации процессов (RPA), разбираются все инциденты. Таким образом, обеспечивается приемлемое качество данных для работы аналитиков и других потребителей.
- Понятно, что риск физической утечки всех этих терабайтов данных едва ли актуален, но есть же и другие угрозы. Как решаются задачи информационной безопасности в рамках данного проекта?
Безусловно, задачи информационной безопасности одни из ключевых для нашего проекта, именно поэтому у нас были выдвинуты специальные требования, которые сейчас включены в дорожную карту развития самого проекта и продукта Arenadata. Кроме того, все доступы и полномочия внутри платформы данных распределяются исключительно на базе вновь разработанной ролевой модели, которая учитывает и доступы к данным, и доступ к атрибутам – то есть на всех уровнях.
- Вы планируете внедрять какие-то функции на основе искусственного интеллекта в обработку данных? Как будет при этом решаться проблема предвзятости алгоритмов?
За последние полтора года у нас широко вошло в обиход использование искусственного интеллекта. Для применения таких продвинутых способов анализа были реализованы специализированные проекты, в том числе система управления моделями и платформа исполнения моделей. Эти два решения позволяют управлять жизненным циклом модели, в том числе проводить его ревалидацию со временем, и позволяет в автоматизированном режиме дообучать модели.
- Каковы ваши дальнейшие планы по развитию аналитической системы?
Планы достаточно широкие, разработанная программа развития рассчитана до конца 2022 года. В ее рамках мы будем решать вопросы не только унификации данных и повышения их доступности, но и расширение инструментария использования и применения данных. В частности, более широко будем использовать методы продвинутого анализа, в том числе использования искусственного интеллекта и другие современные методики анализа и обработки данных.