Переход платформы персонализации «Сбера» с Teradata на связку Hadoop и GreenPlum планировался еще до санкционного кризиса, но весной прошлого года приобрел особую актуальность. Помимо устранения технологических рисков, у группы появились новые возможности для оперативного выявления потребностей клиентов. Про реализацию проекта рассказали Игорь Зарубинский, директор дивизиона развития платформы рекомендательного бизнеса и коммуникаций от потребности клиента и Алексей Смирнов, управляющий директор дивизиона развития платформы рекомендательного бизнеса и коммуникаций от потребности клиента – номинанты на премию Data Award.
— Какова предыстория проекта? Что привело к его реализации?
Игорь Зарубинский: «Сбер» работает над созданием полностью интегрированной системы удобных онлайн-сервисов в самых разных сферах для любых жизненных ситуаций: от покупки продуктов на маркетплейсе до оформления ипотечного кредита. С помощью новой стратегии мы переходим от прогнозирования покупки продукта к созданию предложения, адаптированного под жизненную ситуацию и потребность клиента в конкретный момент времени. Точно предугадывая потребность клиента, «Сбер» обеспечивает долгосрочное взаимовыгодное сотрудничество с ним. Основная цель – выявить релевантную в данный момент времени потребность клиента и подобрать наиболее удобный продукт или сервис для удовлетворения этой потребности.
Для решения этой задачи мы стали создавать платформу данных, которая содержит информацию о клиенте и его действиях в контуре «Сбера». При этом для выявления текущих потребностей клиента требуется оперативная и гибкая работа как с онлайн-, так и с офлайн-потоками данных о действиях клиента.
— В чем заключалась проблема?
Алексей Смирнов: Изначально в качестве основной платформы для работы с данными использовалась Teradata. В связи с ростом количества источников и объема данных появилась проблема доставки этих данных до хранилища с актуальностью не хуже, чем на вчерашний день (Т–1 день). Вместе с этим обнаружилась проблема с хранением большого массива данных: данные в «сыром» слое, с которыми мы работаем, занимают десятки петабайт. Весь этот объем информации необходимо оперативно обрабатывать: от момента попадания данных в «сырой» слой до обновления витрины должно проходить не более нескольких часов, так как данные нужны максимально быстро для использования в бизнес-процессах.
Кроме того, для оперативного выявления потребностей клиентов было реализовано большое количество стриминговых потоков с триггерами о действиях клиентов в контуре группы «Сбера». Возник вопрос об эффективной обработке и создании витрин данных, которые обновляются в реальном времени и используют как информацию из онлайн-потоков, так и из витрин, которые обновляются пакетом.
На платформе Teradata реализация подобной задачи становилась крайне дорогой или невозможной, поэтому «Сбер» принял решение изменить технологическую платформу и перейти на использование связки платформ Hadoop и GreenPlum. Задача миграции стала особенно актуальна в 2022 году, так как Teradata приняла решение уйти с российского рынка. Из-за прекращения поддержки возник риск прекращения работы всех бизнес-процессов, что могло привести к потерям в сотни миллиардов рублей.
— То есть миграция планировалась заранее? Насколько сильно планы откорректировались в связи с санкционным кризисом?
А.С.: Да, миграция планировалась заранее и была инициирована недостатком функциональности предыдущей платформы и дороговизной ее масштабирования. Планы реализации проекта поменялись незначительно, так как к моменту появления санкционных рисков большая часть проекта уже была реализована. Когда ушли иностранные вендоры, мы уже имели на 70% импортозамещенный продукт, и нам пришлось действовать еще быстрее, чтобы компенсировать оставшиеся 30% решений до конца 2022 года.
— Что стало самым сложным в процессе миграции? Как решали эти проблемы?
А.С.: Самым сложным в реализации проекта было изменить модель мышления пользователей платформы: перейти на другой технологический стек и новую модель данных, переосмыслить процессы, которые были сделаны на базе технологии Teradata и реализовать новые, по сути, процессы на новом стеке технологий. Также большим вызовом для нас было доказать преимущества новой платформы для работы дата-инженеров, дата-аналитиков, дата-сайентистов: ее работоспособность, надежность, масштабируемость, скорость работы вычислений для больших объемов данных.
— Сколько времени и ресурсов потребовалось на реализацию проекта?
А.С.: Проект был инициирован в конце 2020 года и завершен в конце 2022 года. За это время мы мигрировали более 300 бизнес-процессов с Teradata на новую платформу.
— Какие данные используются для построения персональных предложений?
А.С.: Мы используем информацию из всех банковских систем, а также данные из систем компаний-партнеров, что позволяет сформировать полный профиль клиента: его финансовые и социально-демографические характеристики, данные об интересах, его предпочтениях в кино, еде, музыке. Разумеется, при этом в обязательном порядке учитывается согласие клиентов на сбор, обработку и использование данных.
Витрины данных являются основой для ключевых задач формирования персональных предложений клиентам. С их помощью создаются модели искусственного интеллекта для работы с данными, аналитика и отчетность, формируются персональные предложения с индивидуальными условиями для клиентов. При этом мы создаем не только витрины «холодного вектора», которые обновляются ежедневно с актуальностью Т–1 день, но и витрины «горячего вектора», которые основаны на потоковой обработке данных.
Новые технологические платформы позволяют нам хранить петабайты данных, быстро обрабатывать десятки терабайт данных в инкременте, а также работать с данными в режиме реального времени.
— Какие изменения в бизнес-процессах породили новые возможности?
И.З.: Новые возможности стали базой для построения SberNBA – платформы персональных рекомендаций. SberNBA обеспечивает расчет персональных предложений, коммуникацию в релевантный момент времени на каждом этапе жизненного пути клиента и максимизирует долгосрочную ценность сотрудничества «Сбера» с клиентом. В основу архитектуры платформы заложены алгоритмы машинного обучения, которые позволяют анализировать события в жизни каждого клиента и реагировать на них в режиме реального времени.
— Какие результаты достигнуты и ожидаются?
А.С.: На текущий момент решение содержит более 300 витрин, которые, в свою очередь, содержат более 15 тыс. атрибутов общим объемом более 9 Пбайт. Самая крупная витрина занимает 1 Пбайт с ежедневным инкрементом в 5 Тбайт. Самая большая витрина содержит более 1 тыс. атрибутов.
Витрины данных имеют актуальность Т–1 день уже к началу следующего рабочего дня. Таким образом, решение позволяет обрабатывать десятки терабайт данных инкремента и за 4,5 часа ежедневно формировать более 300 витрин, существенная часть из которых — это сложные витрины типа SCD2 (медленно меняющиеся измерения, Slowly Changing Dimensions).
Вместе с тем, реализованы десятки онлайн-потоков, которые умеют «на лету» определять потребность, исходя из комбинации совершенных действий клиента. Плотность потока стриминговых данных составляет более 10 тыс. транзакций в секунду. Для определения потребности клиентов при работе с потоками мы не только пользуемся готовыми потоками из систем «Сбера», но и донасыщаем их дополнительной информацией из параллельных стриминговых потоков и витрин, которые обновляются в пакетном режиме. В ряде случаев требуется создание онлайн агрегатов для выявления аналитических триггеров в потоковом режиме.
Также решения, построенные на онлайн-потоках, позволяют предсказывать вопросы и проблемы, которые могут возникнуть у клиента при взаимодействии со «Сбером». Благодаря этому появилась возможность заранее сформировать соответствующую коммуникацию или настроить персональный ролик в канале телемаркетинга по актуальной проблеме и быстро решить вопрос клиента, не привлекая к этой задаче оператора горячей линии контакт-центра.
После перехода на новую платформу обработки данных более 500 наших D-people –дата-инженеров, дата-аналитиков, дата-сайентистов – ежедневно стоят свои решения как на базе платформенных решений, так и на базе реализованных потоков данных. Что немаловажно, во все процессы встроены инструменты контроля качества данных, в том числе с использованием моделей искусственного интеллекта, которые позволяют проверять сложные зависимости в данных для предоставления наилучшего результата.
— В чем роль проекта для «Сбера»?
А.С.: Переход на новую платформу, состоящую из Hadoop и GreenPlum, позволил выполнить ряд крупных задач для B2C-бизнеса «Сбера». Нам удалось добиться непрерывности работы бизнеса за счет отказа от зарубежного вендорского решения. Появилась возможность хранить огромные массивы данных в десятки петабайт, необходимые для реализации предиктивной аналитики и отчетности. Специалисты смогли настроить процесс ежедневного быстрого применения инкремента в 10 Тбайт и реализовать системы потоковой обработки данных.
И.З.: Все это позволило уменьшить временной лаг между совершаемым клиентом действием и реакцией бизнеса на это действие. Благодаря переходу на новую платформу для работы с данными «Сбер» намного раньше узнает о текущих потребностях клиента. Это позволяет формировать наиболее актуальный пул персональных предложений, что было невозможно при использовании предыдущей платформы для работы с данными.
Точно предугадывая потребность клиента, мы обеспечиваем долгосрочное взаимовыгодное сотрудничество с ним. Это подтверждают бизнес-результаты. Например, количество жалоб на коммуникации уменьшилось на 12%. Чистая приведенная стоимость по некоторым коммуникационным кампаниям увеличилась на 20% по сравнению с месяцем, когда в процессе участвовали данные с актуальностью Т–1 день.