Вестник цифровой трансформации

«Сбер»: графовая аналитика на больших данных
«Сбер»: графовая аналитика на больших данных

Алексей Булавин: «На российском рынке сегодня нет технологических решений – а тем более платформ – для работы с графами, представляющими большие данные, которые смогли бы объединить эффект от использования Graph Analytics и big data для бизнеса»


16:00 10.04.2023  |  Николай Смирнов | 1597 просмотров



Алексей Булавин, исполнительный директор управления развития технологий искусственного интеллекта и машинного обучения департамента управления данными Сбербанка, – о создании графовой платформы, позволившей ускорить разработку моделей машинного обучения

«Сбер» запустил графовую платформу, позволяющую объединить возможности методов графовой аналитики и технологий больших данных. Ее использование позволило на порядок ускорить разработку моделей и снизить количество затрачиваемых ресурсов при их промышленном запуске. О значении созданного решения для бизнеса и его перспективах рассказывает Алексей Булавин, исполнительный директор управления развития технологий искусственного интеллекта и машинного обучения департамента управления данными Сбербанка и номинант на премию Data Award.

— Какие задачи решает платформа?

В бизнес-практике все чаще встречаются комплексные задачи, для решения которых невозможно использовать традиционные методы и инструменты аналитики, поскольку они требуют обработки информации, которая характеризуется неоднородной структурой и глубокой связанностью.

Если необходимо проанализировать не только объекты и их свойства, но также их связи с другими объектами различных уровней и характеристик, необходимо использовать методы графовой аналитики. Она применяется для получения дополнительных знаний об объекте за счет извлечения знаний о его окружении, выявления наиболее значимой информации, центров влияния, групп связанных объектов, цепочек и многого другого. К задачам графовой аналитики можно отнести как нахождение новых молекулярных соединений, так и более привычные для бизнеса задачи – построение портрета клиента «360 градусов», оптимизацию логистических цепочек или таргетирование.

— Почему это важно?

Сейчас мы наблюдаем взрывной рост объема данных из различных источников во всех сферах деятельности человека. Связанность данных между собой также быстро растет. Это означает, что все больше и больше задач решаются уже не просто на данных, а на больших данных. На российском рынке сегодня нет технологических решений – а тем более платформ – для работы с графами, представляющими большие данные, которые смогли бы объединить эффект от использования Graph Analytics и big data для бизнеса.

— Каков ваш подход?

«Сбер» разработал собственные технологии хранения и обработки данных, представленных в виде больших графов, и за счет инновационных подходов и архитектурных решений добился их высокой производительности на внутреннем аналитическом хранилище, где собрано более 17 Пбайт плотно связанной между собой неоднородной информации.

Для того чтобы возможности наших технологий можно было применить для бизнес-задач различной природы (разработка и внедрение витрин, моделей, нейросетей, создание онлайн-сервисов, BI-инструментов и др.), мы объединили их в технологическую платформу, состоящую из семи сервисов.

Сервис лаборатории графов – интерактивный инструмент для исследования графов, разработки новых графовых моделей (ML). Сервис графовых расчетов – механизм выполнения массовых регулярных расчетов на больших графах для исполнения графовых моделей. Сервис единого графа клиентских связей (ЕГКС) – актуальные витрины данных о полной связанности между собой всех клиентов банка. Сервис онлайн-доступа к графу – средство доступа к графам класса big data через API в режиме вопрос-ответ в режиме реального времени. Сервис визуализации графов – интерактивный BI-интерфейс для решения прикладных задач на графах в реальном времени. Сервис встраиваемой графовой базы данных – производительная встраиваемая графовая база данных для нестандартных решений. Наконец, сервис графовых нейронных сетей (GNN) – готовый пошаговый механизм обучения нейросети для конкретной бизнес-цели на базе графа. Эти сервисы платформы унифицированы для взаимодействия между собой и позволяют как конструктор собрать любую конфигурацию в зависимости от решаемой бизнес-задачи.

— Что представляет собой решение, запущенное в «Сбере»?

Созданный нами Единый граф клиентских связей – это сервис графовой платформы «Сбера», который создает из 15 источников данных различных видов: txt, csv, parquet и ежедневно обновляет витрину данных, содержащую граф класса big data. Он содержит 17 млрд связей, 390 млн узлов, 187 типов связей и 374 типа атрибутов узлов. Это один из самых крупных графов в России.

Сервис горизонтально масштабируется, поэтому количество источников и данных в графе растет.

— На каких технологиях построена платформа?

Наша графовая платформа не использует в своей основе другие платформы. Она имеет в своем ядре собственную высокоэффективную графовую базу данных FastGraph, написанную с нуля, а также open source технологии стека Hadoop: HDFS, Spark, Solr, Hbase. Таким образом, это 100% российская разработка.

— Как принципиально новые возможности отразились на бизнес-процессах?

У специалистов, разрабатывающих собственные витрины, модели, нейросети и сервисы на больших графах, появилась возможность делать это эффективнее, причем на порядок. Например, в 10 раз ускорилась разработка графовых моделей за счет использования сервисов лаборатории графов и графовых нейронных сетей. Также в 10 раз уменьшилось время работы, либо количество затрачиваемых ресурсов кластера при промышленном запуске графовых моделей за счет использования сервиса графовых расчетов. Примерно в 20 раз уменьшились затраты на внедрение в промышленную эксплуатацию разработанных графовых моделей.

— Пытались ли оценить экономический эффект?

На старте внедрения данной технологии команда оценивала показатели экономической эффективности от использования графовой платформы и графовых данных на пилотных проектах. Результаты исследования показали, что выросла эффективность управления бизнес-процессами и скорость выдачи кредитов. Экономический эффект от внедрения платформы, безусловно, очень значим, поскольку изменения затронули портфель потребительских кредитов.

— Какую роль этот проект играет для банка?

Для банковского бизнеса крайне важно эффективное управление рисками, в том числе кредитным портфелем. Своевременное выявление инсайтов об изменениях в потребительской и деловой активности клиентов позволяет осуществить прогноз дефолта по кредиту на ранней стадии и зачастую предотвратить его. Также понимание потребностей и особенностей деятельности клиентов позволяет правильно настроить кредитный процесс и сделать клиенту наилучшее для него предложение при сохранении требуемого уровня управления рисками.

Наша графовая платформа уже встроена в бизнес-процессы корпоративного и розничного кредитования, что позволяет быстро, взвешенно и с оптимальными затратами принимать решения о выдаче кредитов и их параметров. Сервисы платформы уже используются в десятках автоматизированных бизнес-процессов «Сбербанка». BI-инструментами и данными платформы пользуются порядка 6,5 тыс. специалистов, и их число продолжает активно расти.

— А может ли созданная платформа иметь влияние на рынок в целом?

Думаю, да, поскольку данная платформа вполне может использоваться и в качестве технологической основы других компаний, открыть для них новые возможности по обработке больших данных.

 

Теги: Большие данные Сбер Data Award


На ту же тему: