Конфиденциальное машинное обучение oneFactor: уйти от дата-паранойи

Виктор Стрелков, директор по разработке компании oneFactor, — о создании платформы конфиденциального совместного машинного обучения.

Для любой компании данные представляют значительную ценность. Рисковать их утечкой, и тем более делиться ими готовы немногие. Однако часто встречаются ситуации, когда объединение данных разных компаний позволяет улучшить создаваемые математические модели. Справиться с проблемой позволяет платформа конфиденциального совместного машинного обучения, реализованная компанией oneFactor. Платформа дает возможность безопасно провести обучение и исполнение моделей на данных нескольких поставщиков, сохранив данные владельцев в неприкосновенности. О реализации этого проекта рассказывает Виктор Стрелков, директор по разработке oneFactor и номинант на премию Data Award.

— В чем суть платформы конфиденциального совместного машинного обучения?

Эта платформа позволяет провести обучение на данных любого количества поставщиков без раскрытия этих данных. Мы предоставляем платформу, которая включает в себя набор инструментов, типовых для дата-сайентиста, и даем возможность подключить к ней произвольное количество поставщиков данных. При этом поставщиком данных может быть тот же самый клиент, который хочет обучиться на совместных данных: наших, своих и данных третьего лица. Данные при этом не раскрываются. Фактически они представляют собой набор хэшей — совершенно нечитаемую информацию для дата-сайентиста. Он сможет обучить модель и исполнить ее на этой же платформе, но при этом у него нет возможности ни сделать какие-либо выводы о данных, ни получить какие-то инсайты, не говоря уже о скачивании и сохранении.

— Почему это важно?

С одной стороны, повсеместно растет спрос на защиту данных — как частных, так и корпоративных. Каждый обладатель данных все яснее понимает, что информация — это большая ценность, которую демонстрировать в раскрытом виде не следует. С другой стороны, наблюдаются попытки использовать машинное обучение в процессах всех отраслей. Объединение данных из различных источников (и это доказано нашим исследованием) сильно повышает качество машинного обучения. Мы объединяем два этих тренда в своем решении.

— Как родилась идея платформы конфиденциального совместного машинного обучения?

Как это часто бывает в таких случаях, изначально это решение мы создавали для себя. Около пяти лет назад мы делали финансовый скоринг для сервисов финтеха. Сначала только на собственных данных, которые не надо было никому показывать: так было проще. Но аппетиты растут, все хотят повышать точность своих моделей: это напрямую отражается на затратах финансовых организаций, на количестве резервов, на размере прибыли и т. д. То есть точность используемых моделей напрямую влияет на эффективность бизнеса. Мы постоянно проводим исследования в части улучшения моделей и нашли поставщика данных, нового для нас, — это один из провайдеров финансовых услуг. Работы с данными провайдера проводили в закрытой переговорной на ноутбуке с запаянными USB-портами, под наблюдением камер, без допуска в туалет — высший уровень физической изоляции. После обучения модели на объединенных данных получили существенный прирост точности — до 10–15%, это очень много.

Но как запустить полноценное решение? И мы создали внутреннюю платформу, в которую партнер загружал данные в зашифрованном виде. На этих данных удалось обучить и запустить в эксплуатацию модель, дающую большой прирост точности скоринга. Накопив опыт внутреннего использования в 2020–2021 годах, мы признали, что это отличное решение, достойное вывода на внешний рынок. Такие запросы уже были: приобретая у нас скоринг, банки интересовались, можно ли для улучшения модели добавить собственные данные. В третьем квартале 2021 года мы создали MVP платформы с интерфейсами, возможностью подключения новых поставщиков, шифрованием данных и т. д. И сейчас мы готовы предложить ее рынку.

— Что технически представляет собой созданное решение?

Краеугольный камень защищенных вычислений — это технология Intel Software Guard Extensions, которая позволяет защитить область памяти от любого несанкционированного доступа, в том числе с привилегиями администратора. Даже получив физический доступ к серверу, нельзя получить доступ к данным. Было важно защититься от трех сценариев атаки: чтобы данные не мог получить ни администратор сервера, ни аналитик, который обучает модели, ни поставщик данных. Технология SGX закрывает все три вероятных сценария компрометации данных.

— Откуда берутся кросс-индустриальные данные, с которыми ведется конфиденциальная работа?

Кросс-индустриальные данные состоят из трех больших блоков. На предлагаемой нами платформе уже есть наши данные и данные провайдера финансовых услуг. Третья составляющая — это данные самого клиента.

Рассмотрим, например, лидогенерацию на платную подписку. Есть гипотеза, что платную подписку больше покупают люди, в окружении которых кто-то ее уже купил. У компаний, занимающихся электронной коммерцией, есть данные о купивших подписку, но у них нет данных о связях этих людей. А в других индустриях эти связи есть, но информацию о них ни в коем случае нельзя раскрывать. С согласия конечных пользователей клиент может загрузить свои данные, не раскрывая их, и путем объединения с этими данными на нашей платформе получить результат: с какой вероятностью новый человек купит платную подписку.

— Кто является целевой аудиторией вашего решения?

Пользователи платформы — дата-сайентисты, а клиенты — это крупные компании и иногда представители малого и среднего бизнеса. Это организации, которые уже разработали модели машинного обучения на собственных транзакционных данных и провели цикл оптимизации бизнеса с использованием Data Science и машинного обучения, а теперь хотят повысить эффективность процессов со встроенными в них моделями машинного обучения. Мы предоставляем этим компаниям новые для них данные, c помощью которых можно качественно улучшить точность моделей, и даем возможность проводить эксперименты.

— Каких результатов удалось достичь?

В первую очередь это наш проект «совместного скоринга»: мы с партнерами делаем новый продукт и продаем его. С одним из клиентов выходим на промышленную эксплуатацию. И в разной степени внедрения находятся проекты в нескольких крупных банках, два-три из них планируется запустить в эксплуатацию в этом году.

— Насколько сильный прирост качества моделей дает совместное машинное обучение?

Показательный пример: удалось увеличить точность модели банковского и рискового скоринга до 15%. Очень значимый результат, потому что это примерно три пункта коэффициента Джини. Повышение этого коэффициента хотя бы на один пункт — уже веский повод для внедрения системы. А когда речь идет о росте на три пункта Джини, заказчик часто готов даже на сложные и затратные проекты.

— Способно ли ваше решение повлиять на будущее рынка платформ машинного обучения?

Да, мы рассчитываем убрать барьер дата-паранойи и дать машинному обучению развиваться. Организации должны повышать эффективность без боязни раскрыть или потерять свои данные. Есть и другие компании, которые идут в схожем направлении, но используют другие подходы.

— Какие вы видите перспективы для развития платформы?

Суперрезультатом стало бы объединение всех решаемых нами задач (машинного обучения, Auto ML, подсистем лидогенерации и т. д.) на одной платформе — создание подобия «Единого окна маркетинговых коммуникаций».

Сценарий из недалекого будущего: к платформе подключается дата-сайентист, выбирает для себя любые источники данных, обучает модель, подключает каналы коммуникации, при необходимости проводит A/B-тест, видит эффективность модели, получает достаточную конверсию, ставит Auto ML. Далее каждый день эта модель переобучается и выполняет рассылку лидов. Мы приближаемся к этому будущему с двух сторон: с одной стороны развиваем платформу конфиденциальных данных, а с другой — систему лидогенерации и каналы коммуникации. Важно объединить их в единое решение, которое даст новые возможности для омниканальных маркетинговых коммуникаций.

Многие, особенно далекие от ИТ люди, воспринимают машинное обучение как нечто очень сложное, непонятное и не имеющее отношения к каждодневной жизни. Мы, как профессионалы, видим, с какой скоростью развиваются ML-решения, как быстро они проникают во все стороны нашей жизни и помогают получать именно ту информацию и те услуги, которые нам нужны. Мы гордимся, когда технологически передовые продукты делают наши инженеры — это гарантирует развитие отечественной ИТ-индустрии. Конечно, нахождение на переднем крае технологий в настоящее время ставит перед инженерными командами дополнительные требования, связанные с безопасностью. Но это делает создание продуктов для бизнеса еще более интересным для разработчиков, а сами продукты — востребованными рынком.