Появление компании «Платформа больших данных» стало примечательным событием на российском рынке больших данных. Это совместный проект двух отечественных гигантов по развитию нового направления бизнеса, в который инвестируется миллиард рублей. Ожидается, что новая компания станет лидером рынка и серьезно усилит конкуренцию на нем. Учитывая масштаб материнских компаний и степень их влияния на экономику, можно говорить о создании крупнейшего кросс-отраслевого источника данных. Максим Коновалихин, старший вице-президент, руководитель департамента анализа данных и моделирования банка «ВТБ», номинант премии CDO Award 2021, рассказывает об уже достигнутых результатах и делится планами дальнейшего развития.
- Как появилась идея создания «Платформы больших данных»?
Идея развития компетенции по работе с большими данными и создания продуктов на их основе появилась в банке в прошлом году. Стало очевидно, что, помимо внутренней трансформации, которая во многом основана на использовании больших данных, необходимо двигаться вовне, развиваться на конкурентном рынке как с точки зрения применения внешних источников данных,так и с точки зрения их монетизации через готовые сервисы. Изучались разные подходы к решению этой задачи, велись диалоги с лидерами рынка, экспертами в командах партнеров и консультантами. В итоге сложилась та конфигурация, которая существует сегодня, — стратегическое партнерство с «Ростелекомом».
- Как определялась цель проекта?
Цель проекта — создание лидера российского рынка в области работы с большими данными. Под лидерством подразумеваются как сильные компетенции команды и уникальные продукты, так и достижение жестких KPI по выручке и прибыли на горизонте пяти лет.
- Какова в этом проекте роль ВТБ и какова — «Ростелекома»?
Изначальная договоренность состояла именно в том, что стороны занимают паритетные позиции во всем. У «Ростелекома» есть серьезные наработки, связанные с технологиями работы с большими данными. Они уже используются во внутреннем контуре компании. Данные технологии можно применять для совместной работы, что позволит адаптировать их под новые задачи, увеличить монетизацию на внешнем рынке.
В свою очередь, наш банк имеет отличный практический опыт построения алгоритмов машинного обучения, в том числе такого передового направления, как АutoML — автоматического машинного обучения, самостоятельно создающего новые модели. Эти наработки также будут использоваться в совместных проектах. Кроме того, у банка есть широкая сеть партнеров из абсолютно разных областей экономики. Наши бизнес-контакты — это тоже вклад в совместный проект. Конечно, стороны являются инвесторами в равных пропорциях, так как разработки в этой области трудозатратны и имеют значительный срок окупаемости.
- ВТБ и «Ростелеком» — крупные, довольно неповоротливые структуры, а новый игрок рынка данных должен быть инноватором. Что было сделано, чтобы он не унаследовал нежелательных качеств материнских компаний?
Специально для СП в марте было зарегистрировано новое юридическое лицо. С самого начала предполагалось создание самостоятельной компании, в команде которой должны быть профессионалы рынка, имеющие релевантный опыт работы. В последний год акционеры компании проходят активные фазы трансформации, чему очень способствовала пандемия.
У правления СП есть высокая степень свободы, которая отразилась в амбициозном проекте стратегии. В ближайшие месяцы финальная версия этой стратегии будет защищена, но уже сейчас можно сказать, что бизнес новой структуры опирается на рынок, а не только на материнские компании и партнеров.
- Что по сути представляет собой созданная платформа? Каков ее масштаб?
Лучше всего масштаб опишет рынок, на котором предстоит работать «Платформе больших данных». Его объем исчисляется десятками миллиардов рублей, и он растет очень уверенными темпами. Если говорить в терминах инвестиций, то стороны планируют совместно инвестировать в эту активность от 1 млрд руб. Масштаб амбиций также можно понять по широкому кругу компаний в периметре банка и «Ростелекома».
Если говорить о платформе в разрезе продуктов, то планируется развивать четыре больших направления: финансовые продукты, геопространственный анализ, облачную инфраструктуру и рекламные сервисы. При этом нет ограничения по продуктам: если команда видит потенциально сильный продукт, то его можно добавить в стратегию развития. Самое важное — чтобы этот продукт был востребован клиентами на В2В-рынке.
- Миллиард — серьезная инвестиция. Как оценивается срок ее окупаемости?
Сейчас мы находимся на этапе финализации и готовим защиту стратегии. Срок окупаемости оценивается достаточно консервативно, что связано со сложностью разработки продуктов и наличием большого числа сильных конкурентов почти во всех сегментах рынка. Однако такое положение вполне соответствует привычному для банка уровню риска.
- Какие принципы использованы при построении платформы?
Если речь о технологических принципах, то при построении платформы использовался принцип «гибридного» подхода. Отдельные компоненты платформы будут доступны в публичном облаке, это позволит нам быстрее тестировать гипотезы и в целом сократить время вывода продуктов на рынок (time to market). Кроме того, платформа должна обладать всеми передовыми системами обеспечения безопасности хранения и обработки данных. С точки зрения ПО мы делаем ставку на использование решений с открытым кодом и на российские разработки.
- Какие ИТ-решения вы используете? Чем определяется ваш выбор?
Наша основная цель — по возможности не использовать «неповоротливые системы» и не зацикливаться на отдельных вендорских решениях.
Компания ориентируется на решения из комплекса OpenStack, такие как Apache Kafka, Airflow, Hadoop, HBASE, Kudu, Ignite, Tableu и прочие. Кроме того, применяем ML-технологии Python и библиотеки для работы с данными Pandas и PySpark, библиотеки ML — от классических SKlearn, XGboost, LGBM до DL и графовых библиотек. Но некоторые решения, например управление мастер-данными (MDM), скорее всего, потребуют партнерства с тем или иным вендором.
- Какие данные объединила платформа? Как принимаются решения о включении того или иного источника?
На сегодняшний день тестируются очень разные наборы обезличенных данных, их пересечения, ищется оптимальная конфигурация. В нашем распоряжении уже более 1 тыс. параметров знаний о своей аудитории. Это очень ценные данные, на основе которых можно создавать конкурентные продукты и услуги для рынка. Обезличенная информация наших партнеров также будет использоваться в работе, если мы достигнем такой договоренности. Решения об использовании тех или иных данных команда «Платформы» принимает исходя из потребностей бизнеса и в соответствии с текущим законодательством.
- Без стратегического подхода к управлению данными этот проект обойтись не мог. Каковы ключевые элементы стратегии управления данными?
Это верное замечание. Стратегическая цель СП — создать лидера рынка в области разработки и реализации продуктов на основе данных. В этом нас поддерживают руководство банка и куратор от правления. Для достижения этой цели необходимо придерживаться нескольких ключевых принципов. Первый из них — открытость: платформа будет доступна для подключения любому игроку, у которого есть такая потребность. Второй — ориентация на самостоятельную окупаемость проекта. Это не кэптивный игрок, поэтому важна ориентация на рынок и его потребности. Третий — принцип центра компетенции по работе с данными. Его наработками может воспользоваться любой из акционеров и даже партнеров. Наконец — безопасность и максимальный охват: данные проходят процедуру мэтчинга из различных источников на уровне однорангового взаимодействия на уровне единого идентификатора, то есть без прямого обмена семплами между партнерами. Они проходят процедуру обезличивания и преобразования в векторные представления посредством нейросетей. Восстановить информацию о лицах или компаниях, которым принадлежат данные, невозможно.
- Что уже удалось сделать, какие продукты и сервисы появились?
На текущий момент в пилотно-коммерческой эксплуатации находится «Геоплатформа». У нее ряд серьезных преимуществ перед конкурентами: например, она имеет более 700 слоев геоданных и использует алгоритмы AutoML. Платформа активно проходит пилотную стадию и совершенствуется на основании отзывов от потенциальных клиентов.
- Что находится в разработке?
В разработке находятся продукты из разных сегментов: финансового, рекламного и инфраструктурного. Более точное описание продуктов сможем предоставить позднее, после защиты стратегии. Но уже сейчас можно заявить, что будет предложен новый интересный продукт на рынке рекламы.
В целом же платформа позволит эффективно решать бизнес-задачи в различных отраслях экономики, дополнять текущие цифровые продукты и конкурировать с ними, а также создавать сервисы нового уровня. Например, таким продуктом могут быть различные скоринговые оценки, представляющие вероятность исполнения различных целевых событий — от рисковых событий (вероятность дефолта или фрода), выявления предпочтений различных продуктов и прогнозов жизненных ситуаций до рекомендательных сервисов для различных сфер и областей. Ценность подобного сервиса очевидна: «Ростелеком» имеет большой охват как физических, так и юридических лиц, при этом до сегодняшнего дня эти данные не использовались в скоринговых моделях банковского сектора. Повышение качества скоринговых процедур банков даст возможность снизить нагрузку на капитал банков и тем самым позволит банкам иметь маневр в части снижения стоимости кредитования. Точность скоринга поможет повысить лояльность к банкам, а также потенциально снизит бюрократическую нагрузку.
Кроме того, речь идет о создании платформы обмена данными и маркетплейса моделей. Различные компании — от финтех-стартапов до крупных и известных игроков — смогут строить модели на объединенных данных, используя передовые методы машинного обучения в выделенных песочницах «Платформы больших данных». В дальнейшем исполнение моделей будет происходить также в контуре «Платформы» с получением результатов по API для использования компаниями в их собственных производственных процессах.
- Каких финансовых и прочих производственных результатов удалось добиться ?
О финансовых результатах говорить пока что рано — первая выручка ожидается в 2021 году. Самый главный результат сейчас — это готовая стратегия развития компании, которая проходит финализацию перед защитой у акционеров.
- Какое значение может иметь созданная платформа для рынка больших данных и услуг на их основе?
Платформа больших данных — первый уникальный пример того, как два больших институциональных игрока договорились использовать деперсонализированные данные для создания продуктов на внешнем рынке, и это без учета близких партнеров и их обезличенных данных. Такие заявления были, но по факту это ни у кого эффективно не работает.
Можно ожидать, что появление «Платформы» подстегнет конкурентную борьбу, от чего в конечном счете выиграет клиент — от небольшой кофейни до национального ретейлера. Время «сидения на своих данных» прошло, рынок активно развивается, и только те игроки, которые обладают достаточными амбициями и уверенностью в своих компетенциях, смогут занять на нем лидерские позиции.
- Как вы представляете будущее созданной платформы? Что ожидается в дальнейшем? В каком направлении она будет развиваться?
Мало кто может заглянуть за горизонт и сказать, какие продукты и технологии будут востребованы в будущем. Однако понятно, что наша платформа создается на принципах гибкости и адаптивности, поэтому при возникновении интересных технологий в области работы с данными она их быстро применит для создания новых решений. Знания о клиентах будут только углубляться, а мы приложим все усилия для того, чтобы предвосхищать их потребности и желания и реагировать на них быстрее конкурентов.