Вестник цифровой трансформации

«Платформа больших данных»: тандем ВТБ и «Ростелекома» на рынке big data
«Платформа больших данных»: тандем ВТБ и «Ростелекома» на рынке big data

Максим Коновалихин: «Время "сидения на своих данных" прошло, рынок активно развивается, и только те игроки, которые обладают достаточными амбициями и уверенностью в своих компетенциях, смогут занять на нем лидерские позиции»


09:42 06.11.2020  |  Николай Смирнов | 25696 просмотров



Максим Коновалихин, старший вице-президент, руководитель департамента анализа данных и моделирования банка «ВТБ», номинант премии CDO Award 2021, — о совместном предприятии с «Ростелекомом», его перспективах на рынке больших данных и о потенциальных возможностях для развития.

  Появление компании «Платформа больших данных» стало примечательным событием на российском рынке больших данных. Это совместный проект двух отечественных гигантов по развитию нового направления бизнеса, в который инвестируется миллиард рублей. Ожидается, что новая компания станет лидером рынка и серьезно усилит конкуренцию на нем. Учитывая масштаб  материнских компаний и степень их влияния на экономику, можно говорить о создании крупнейшего кросс-отраслевого источника данных. Максим Коновалихин, старший вице-президент, руководитель департамента анализа данных и моделирования банка «ВТБ», номинант премии CDO Award 2021, рассказывает об уже достигнутых результатах и делится планами дальнейшего развития.

- Как появилась идея создания «Платформы больших данных»?

Идея развития компетенции по работе с большими данными и создания продуктов на их основе появилась в банке в прошлом году. Стало очевидно, что, помимо внутренней трансформации, которая во многом основана на использовании больших данных, необходимо двигаться вовне, развиваться на конкурентном рынке как с точки зрения применения внешних источников данных,так и с точки зрения их монетизации через готовые сервисы. Изучались разные подходы к решению этой задачи, велись диалоги с лидерами рынка, экспертами в командах партнеров и консультантами. В итоге сложилась та конфигурация, которая существует сегодня, —  стратегическое партнерство с «Ростелекомом». 

-  Как определялась цель  проекта?

Цель проекта — создание лидера российского рынка в области работы с большими данными. Под лидерством подразумеваются как сильные компетенции команды и уникальные продукты, так и достижение жестких KPI по выручке и прибыли на горизонте пяти лет.

- Какова в этом проекте роль  ВТБ  и какова  — «Ростелекома»? 

Изначальная договоренность состояла именно в том, что стороны занимают паритетные позиции во всем. У «Ростелекома» есть серьезные наработки, связанные с технологиями работы с большими данными. Они уже используются во внутреннем контуре компании. Данные технологии можно применять для совместной работы, что позволит адаптировать их под новые задачи, увеличить монетизацию на внешнем рынке.

В свою очередь,  наш банк имеет отличный практический опыт построения алгоритмов машинного обучения, в том числе такого передового направления, как АutoML — автоматического машинного обучения, самостоятельно создающего новые модели. Эти наработки также будут использоваться в совместных проектах. Кроме того, у банка есть широкая сеть партнеров из абсолютно разных областей экономики. Наши бизнес-контакты — это тоже вклад в совместный проект. Конечно, стороны являются инвесторами в равных пропорциях, так как разработки в этой области трудозатратны и имеют значительный срок окупаемости.

- ВТБ и «Ростелеком» — крупные, довольно неповоротливые структуры, а новый игрок рынка данных должен быть инноватором. Что было сделано, чтобы он не унаследовал  нежелательных  качеств материнских компаний?

Специально для СП в марте было зарегистрировано новое юридическое лицо. С самого начала предполагалось создание самостоятельной компании, в команде которой  должны быть  профессионалы рынка, имеющие релевантный опыт работы. В последний год акционеры компании проходят активные фазы трансформации, чему очень способствовала пандемия.

У правления СП есть высокая степень свободы, которая отразилась в амбициозном проекте стратегии. В ближайшие месяцы финальная версия этой стратегии будет защищена, но уже сейчас можно сказать, что бизнес новой структуры опирается на рынок, а не только на материнские компании и партнеров.

- Что по сути представляет собой созданная  платформа? Каков  ее масштаб?

Лучше всего масштаб опишет рынок, на котором предстоит работать «Платформе  больших  данных». Его объем исчисляется десятками миллиардов рублей, и он растет очень уверенными темпами. Если говорить в терминах инвестиций, то стороны планируют совместно инвестировать в эту активность от 1 млрд руб. Масштаб амбиций также можно понять по широкому кругу компаний в периметре банка и «Ростелекома». 

Если говорить о платформе в разрезе продуктов, то планируется развивать четыре больших направления: финансовые продукты, геопространственный анализ, облачную инфраструктуру и рекламные сервисы. При этом нет ограничения по  продуктам: если команда видит потенциально сильный продукт, то его можно добавить в стратегию развития. Самое важное — чтобы этот продукт был востребован клиентами на В2В-рынке.

- Миллиард — серьезная инвестиция. Как оценивается срок ее окупаемости?

Сейчас мы находимся на этапе финализации и готовим защиту  стратегии. Срок окупаемости оценивается достаточно консервативно, что связано со сложностью разработки продуктов и наличием большого числа сильных конкурентов почти во всех сегментах рынка. Однако такое положение вполне соответствует привычному для банка уровню  риска.

- Какие принципы использованы при построении платформы?

Если речь о технологических принципах, то при построении платформы использовался принцип «гибридного» подхода. Отдельные компоненты платформы будут доступны в публичном облаке, это позволит нам быстрее тестировать гипотезы и в целом сократить время вывода продуктов на рынок (time to market). Кроме того, платформа должна обладать всеми передовыми системами обеспечения безопасности хранения и обработки данных. С точки зрения ПО мы делаем ставку на использование решений с открытым кодом и на российские разработки.

- Какие  ИТ-решения вы используете? Чем определяется ваш выбор? 

Наша основная цель — по возможности не использовать «неповоротливые системы» и не зацикливаться на отдельных вендорских решениях.

Компания ориентируется на решения из комплекса OpenStack, такие как Apache Kafka, Airflow, Hadoop, HBASE, Kudu, Ignite, Tableu и прочие. Кроме того,  применяем  ML-технологии Python и библиотеки для работы с данными Pandas и PySpark, библиотеки ML — от классических SKlearn, XGboost, LGBM до DL и графовых библиотек. Но некоторые решения, например управление мастер-данными (MDM), скорее всего, потребуют партнерства с тем или иным вендором.

- Какие данные объединила платформа? Как принимаются решения о включении того или иного источника?

На сегодняшний день тестируются очень разные наборы обезличенных данных, их пересечения, ищется оптимальная конфигурация. В нашем распоряжении уже более 1 тыс. параметров знаний о своей аудитории. Это очень ценные данные, на основе которых можно создавать конкурентные продукты и услуги  для рынка. Обезличенная информация  наших партнеров также  будет использоваться  в работе, если мы достигнем такой договоренности. Решения об использовании тех или иных данных команда «Платформы» принимает исходя из потребностей бизнеса и  в соответствии с текущим законодательством.

- Без стратегического подхода к управлению данными этот проект обойтись не мог. Каковы ключевые элементы стратегии управления данными?

Это верное замечание. Стратегическая цель СП — создать лидера рынка в области разработки и реализации продуктов на основе данных. В этом нас поддерживают  руководство банка и куратор от  правления. Для достижения этой цели необходимо придерживаться нескольких ключевых принципов. Первый из них — открытость: платформа будет доступна для подключения любому игроку, у которого есть такая потребность. Второй —  ориентация на самостоятельную окупаемость проекта. Это не кэптивный игрок, поэтому важна ориентация на рынок и его потребности. Третий  —  принцип центра компетенции по работе с данными. Его наработками может воспользоваться любой из акционеров и даже партнеров. Наконец — безопасность и максимальный охват: данные проходят процедуру мэтчинга  из различных источников на уровне однорангового взаимодействия на уровне единого идентификатора, то есть без прямого обмена семплами между партнерами. Они проходят процедуру обезличивания и преобразования в векторные представления посредством нейросетей. Восстановить  информацию о лицах или компаниях, которым принадлежат данные, невозможно.

- Что уже удалось сделать, какие продукты и сервисы появились?

На текущий момент в пилотно-коммерческой эксплуатации находится «Геоплатформа». У нее ряд серьезных преимуществ перед конкурентами: например, она имеет более 700 слоев геоданных и использует алгоритмы AutoML. Платформа активно проходит пилотную стадию и совершенствуется на основании отзывов от потенциальных клиентов.

- Что находится в разработке?

В разработке находятся продукты из разных сегментов: финансового, рекламного и инфраструктурного. Более точное описание продуктов сможем предоставить позднее, после защиты стратегии. Но уже сейчас можно заявить, что будет предложен новый интересный продукт на рынке рекламы.

В целом же платформа позволит эффективно решать бизнес-задачи в различных отраслях экономики, дополнять текущие цифровые продукты и конкурировать с ними, а также создавать сервисы нового уровня. Например, таким продуктом могут быть различные скоринговые оценки, представляющие вероятность исполнения различных целевых событий — от рисковых событий (вероятность дефолта или фрода),  выявления предпочтений различных продуктов  и  прогнозов  жизненных  ситуаций  до рекомендательных сервисов для различных сфер и областей. Ценность подобного сервиса очевидна:  «Ростелеком»  имеет большой охват как физических, так и юридических лиц, при этом до сегодняшнего дня эти данные не использовались в скоринговых моделях банковского сектора. Повышение качества скоринговых процедур банков  даст возможность  снизить нагрузку на капитал  банков и  тем самым позволит банкам иметь маневр в части снижения стоимости кредитования. Точность скоринга  поможет  повысить лояльность к банкам, а также потенциально снизит бюрократическую нагрузку.

Кроме того, речь  идет  о создании платформы обмена данными и маркетплейса моделей.  Различные компании — от финтех-стартапов до крупных и известных игроков — смогут строить модели на объединенных данных, используя передовые методы машинного обучения в выделенных песочницах  «Платформы  больших  данных». В дальнейшем исполнение моделей будет происходить также в контуре «Платформы» с получением результатов по API для использования  компаниями в их собственных производственных  процессах. 

- Каких финансовых и прочих производственных  результатов   удалось добиться ?

О финансовых результатах говорить пока что рано —  первая выручка ожидается в 2021 году. Самый главный результат сейчас — это готовая стратегия развития компании, которая проходит финализацию перед защитой у акционеров.

- Какое значение может иметь созданная платформа для рынка больших данных и услуг на их основе?

Платформа больших данных — первый уникальный  пример того, как  два больших институциональных игрока договорились использовать деперсонализированные данные для создания продуктов на внешнем рынке, и это без учета близких партнеров и их обезличенных данных. Такие заявления были, но по факту это ни у кого эффективно не работает.

Можно ожидать, что появление «Платформы» подстегнет конкурентную борьбу, от чего в конечном счете выиграет клиент — от небольшой кофейни до национального ретейлера. Время «сидения на своих данных» прошло, рынок активно развивается, и только те игроки, которые обладают достаточными амбициями и уверенностью в своих компетенциях, смогут занять на нем лидерские позиции.

-  Как вы представляете будущее  созданной  платформы?  Что ожидается в дальнейшем?  В каком направлении  она будет развиваться?

Мало кто может заглянуть за горизонт и сказать, какие продукты и технологии будут востребованы в будущем. Однако понятно, что наша платформа создается на принципах гибкости и адаптивности, поэтому при возникновении интересных технологий в области работы с данными она их быстро применит для создания новых решений. Знания о клиентах будут только углубляться, а мы приложим все усилия для того, чтобы предвосхищать их  потребности и  желания и реагировать на них быстрее конкурентов.

Теги: Большие данные CDO Award

На ту же тему: