Компании HFLabs и Platforma предлагают использовать синергетический эффект от объединения данных разных компаний безопасным образом – так, чтобы партнеры смогли получить дополнительную информацию о профиле своего клиента за счет сведений, которые есть у других игроков. Что важно, данные клиентов при этом не раскрываются. О подробностях проекта безопасного мэтчинга рассказывает Никита Назаров, технический директор HFLabs.
— Сопоставление и сведение воедино разных баз данных – не такая простая задача даже в рамках одной организации. Каким образом вы предлагаете обеспечить решение подобной задачи для разных организаций, причем с соблюдением требований регуляторов?
Наша компания накопила большой опыт в области работы с данными. Так, мы уже 17 лет занимаемся формированием эталонных клиентских баз для банков, страховых компаний, телеком-операторов. Крупный бизнес на протяжении многих лет активно собирает информацию о клиентах и, по сути, узнал о них уже практически все в рамках своих возможностей. Тем не менее, есть способ улучшить понимание клиента – за счет информации, которая есть у компаний других отраслей.
Мы, например, применяем такой подход. Каждый из участников экосистемы наших партнеров с помощью одного из разработанных нами программных модулей обезличивает имеющиеся у него клиентские данные, а затем передает их в федеративный узел (hub) данных. Некая третья сторона (в нашем проекте в этом качестве выступает Platforma – разработчик решений для бизнеса на основе больших данных) предоставляет так называемую «чистую комнату», где происходит сопоставление, объединение данных и формирование межотраслевого суперпрофиля клиента. Например, мы выясняем, что клиент компании 1 с идентификатором 01 и клиент компании 2 с идентификатором 02 – один и тот же человек. И так далее. Основываясь на полученных результатах, специалисты по данным каждой из организаций могут обучать свои скоринговые модели.
Регулятор сам активно ищет способы, как обеспечить участникам рынка «песочницу», где они могли бы безопасно обмениваться данными. В нашем проекте предусмотрен обмен только обезличенными данными – для статистических и аналитических целей. В этом, собственно, и состоит ключевая идея безопасного мэтчинга данных, которая легла в основу вашего проекта: компании могут получить дополнительную информацию о портрете своего клиента за счет сведений, которые есть у других игроков, при этом данные клиентов не раскрываются.
— В каких организациях и в каких сценариях применения безопасный мэтчинг данных будет иметь важное значение?
Безопасный мэтчинг данных могут использовать компании из любых отраслей. Но наибольший эффект он даст крупным B2C-игрокам, которые уже исчерпали возможности работы с собственными данными. В бизнесе есть термин «красный океан», он описывает конкурентную борьбу на рынке, насыщенном игроками. Для компаний, находящихся в условиях «красного океана», приоритетом становится не привлечение новых, а удержание постоянных клиентов, поэтому они и стремятся понять их как можно лучше.
— Какие цели ставили перед собой участники вашего проекта в самом начале? Пришлось ли переформулировать цели по ходу проекта?
Нет, не пришлось. Мы изначально понимали, что нам нужно сформировать платформу, выстроить сквозной процесс для безопасного мэтчинга и отладить схему взаимодействия между участниками пилотного проекта. Все работы шли в рамках двух треков: технического и организационного. Мы взяли на себя техническую сторону, компания Platforma – организационную.
— Какие подходы и технологии – инструменты и платформы вы выбрали для реализации безопасного мэтчинга данных?
В основе безопасного мэтчинга данных лежат локальные модули хеширования, которые передаются конкретным участникам проекта. Именно эти модули хранят в себе бизнес-логику обезличивания. Они приводят базу участников пилотного проекта к единому формату, нормализуют данные, дедуплицируют их и специальным образом обезличивают. Разработчиком модуля выступила наша компания HFLabs, а транспортный, интеграционный слой реализовали коллеги из Platforma.
«Сердце» мэтчинга – федеративный узел данных внутри ИТ-контура компании Platforma. Он сопоставляет и объединяет деперсонализированные хешированные выгрузки участников проекта, руководствуясь при этом определенными критериями. Федеративный узел данных – также собственная разработка HFLabs. Сами приложения написаны на языках Java и Kotlin, ключевая библиотека – Spring, а в качестве хранилища данных используется объектное хранилище S3 в частном облаке.
Первым шагом нашего проекта стала организационная фаза: нужно было договориться со всеми участниками проекта. На следующей стадии мы сфокусировались на подготовке локальных модулей. Наконец, в ходе третьей фазы был создан федеративный узел данных.
— С какими сложностями пришлось столкнуться в ходе проекта и как их удалось преодолеть?
Как показал пилотный проект, сразу приступить к хешированию данных невозможно. Даже внутри одной компании один и тот же человек может быть записан по-разному (например, в одной системе имя записано как «Наталья», а в другой – «Наталия»). Кроме того, участники могут использовать разные модели данных.
При подготовке к хешированию мы сначала провели поиск схожих данных с помощью механизмов дедупликации и алгоритмов, учитывающих синонимы, опечатки, взаимозаменяемые слова, устаревшие наименования населенных пунктов – эти процедуры помогли выявить неявное дублирование данных.
— Каковы результаты вашего проекта безопасного мэтчинга данных на текущий момент?
Главным результатом можно считать то, что к платформе обмена уже подключены два первых участника. Процесс безопасного мэтчинга поставлен на промышленные рельсы: по команде одного из участников формируется запрос на мэтчинг, после чего актуальные базы двух компаний загружаются, сопоставляются и объединяются. Наш узел данных может в любой момент принять новых игроков.
Мы уже работаем с крупнейшими представителями телекома и банковской отрасли. На этапе пилота мы специально эмулировали рост объема объединяемых данных и убедились, что производительность при этом не деградирует.
— Какие результаты проделанной вами работы способны обеспечить повышение эффективности бизнеса организаций, которые воспользуются вашими технологиями? За счет чего оно произойдет?
Представим, что я – банк. Я никогда не узнаю, какую страховку покупает мой клиент, как часто он путешествует по России, есть ли у него дети и пр. У меня нет полной картины о жизни клиента, следовательно, обеспечить соответствие его ожиданиям и сделать ему релевантное предложение мне будет довольно трудно.
Если мы вместе с телеком-оператором найдем общих клиентов, то сможем предложить им новые совместные программы лояльности. Кроме того, ускорится доступ клиентов к новым услугам. Например, банк охотнее выдаст кредит, зная, что человек исправно оплачивает мобильную связь.
При этом не нужно путать безопасный мэтчинг с классическим обогащением данных – участники проекта не получают никаких новых контактов потребителей.
— Какое влияние на рынок способен оказать безопасный мэтчинг данных? В чем оно будет заключаться, на каких рыночных показателях сможет отразиться?
Как я уже говорил, безопасный мэтчинг открывает перспективы в работе с действующими клиентами. Компании смогут лучше их понимать, более точно оценивать их поведение, а значит, генерировать для своих потребителей релевантные приложения и снижать вероятность их оттока. Все это повышает пожизненную ценность клиента (Customer Lifetime Value, CLV) – прибыль, которую компания может получить от одного клиента за все время сотрудничества с ним. Именно здесь, на наш взгляд, для крупного бизнеса открывается новая возможность роста.
— Каковы дальнейшие перспективы вашего проекта?
Прежде всего мы планируем подключить новых участников обмена данными. Главная задача состоит в том, чтобы участники рынка поверили, что обмениваться данными можно безопасным образом.
Среди инженерных вызовов, которые предстоит решить, – работа с большими объемами данных и использование большего количества критериев, чтобы принимать решение об идентичности клиентских записей разных участников. Например, в качестве одного из критериев сопоставления мы планируем использовать вложения (embeddings).