Для борьбы с отмыванием денег, обналичиванием, фиктивными зарплатными схемами, а также для ведения фрод-мониторинга и выявления подставных лиц и так называемых дропперов, участвующих в транзите обналиченных денег, банки берут на вооружение самые современные средства и концепции работы с данными. Ретроспективный анализ обогащают прогнозированием, встраивая в инструменты бизнес-аналитики технологии машинного обучения. Эту концепцию называют дополненной аналитикой. А когда дополненная искусственным интеллектом BI встраивается во фронт-офисные системы и анализ ведется в реальном времени — это уже концепция непрерывной аналитики. Чтобы эти концепции работали, нужны соответствующие BI-инструменты и специалисты, которые будут моделировать интересующие их явления и встраивать прогностические модели в интерфейсы BI-систем.
Юрий Сирота, старший вице-президент, руководитель департамента искусственного интеллекта и анализа данных банка «УралСиб» и претендент на премию CDO Award, рассказал на примере проекта Anti Money Laundering, как его подразделению удается монетизировать работу с данными.
- Как организована математическая работа с данными в вашем банке?
Исторически математические функции развивались в двух направлениях: в рисках и розничном бизнесе. Но большинство задач, требующих математического моделирования, оставались нерешенными. Поэтому было создано новое подразделение — департамент искусственного интеллекта и анализа данных или Artificial Intelligence and Data Analytics Office (AIDA), призванный развивать аналитическую культуру и реализовывать математические проекты исключительной сложности. В нем сосредоточены функции, связанные с математическим изучением данных, бизнес-аналитикой, искусственным интеллектом и интеллектуальной роботизацией процессов.
AIDA напрямую подчиняется заместителю председателя правления, поскольку руководство банка понимает перспективность этих направлений для бизнеса. Наше взаимодействие с заказчиками строится по принципу партнерства. Тематический лидер приходит от заказчика, а математическая и ИТ-имплементация проекта – задача AIDA.
27 марта — форум BIG DATA 2019 Центральное событие года для общения с экспертами индустрии больших данных и интеллектуальной аналитики!
|
Cтратегия развития аналитической функции в банке предусматривает ликвидацию барьеров между ИТ, центром аналитических компетенций и бизнесом, разработку подхода для интеграции результатов аналитики в бизнес-процессы, а также инвестиции в инфраструктуру и компетенции.
Основных компетенций три: инженерия данных, математический анализ данных и BI. Подготовка данных для анализа — процесс кропотливый, и в общей трудоемкости его доля составляет порой 90–95%, но иначе невозможно добиться реальных конкурентных преимуществ. Монетизация упомянутых технологий и навыков достигается в основном благодаря внедрению методологий исследования данных (data science).
Традиционно исследование данных применяется банками при оценке рисков, в маркетинге и продажах. Есть много примеров использования математики для сегментации клиентов, определения вероятности их оттока, покупки и кросс-продаж и, конечно, для рискового скоринга. Но этим применение данных методологий не ограничивается. По большому счету, предиктивной математике можно адресовать вопрос, касающийся любой финансовой сущности: куда она движется и как добиться того, чтобы она двигалась туда, куда нам надо? Предиктивное моделирование помогает понять, к примеру, какова будет выручка, как сделать, чтобы прибыль была больше, а отток клиентов — меньше.
- Какие задачи решались в одном из последних ваших проектов — Anti Money Laundering?
Этот проект нацелен на выявление токсичных, то есть совершающих противозаконные транзакции, клиентов. Главным образом это физические лица, малый бизнес и индивидуальные предприниматели с незаконными оборотами. Математические методы использовались, чтобы прогнозировать вероятность токсичности. Проект выполняла кросс-функциональная команда специалистов AIDA и службы финансового мониторинга.
- Почему такая работа важна для банка и отрасли в целом?
Объем токсичных операций контролируется Центральным банком в конце каждого квартала: за очень большие объемы банк могут наказать, и не только штрафом. Санкции предусмотрены достаточно серьезные, вплоть до отзыва лицензии.
Задача определения того, какой клиент токсичен, а какой нет, решается всеми банками, разница только в методах и точности. Если мы сильно «закручиваем гайки», отказываем многим клиентам в открытии расчетного счета, то получается, что «душим бизнес». Если же плохо выявляем токсичных клиентов, тогда через банк проходят токсичные обороты, несущие потенциальные риски. И то и другое — плохо, все банки в этом смысле зажаты между молотом и наковальней. Чаще всего банки идут по пути именно «закручивания гаек» — грубо отсеивают из входного потока клиентов предприятия малого бизнеса и индивидуальных предпринимателей, и это оборачивается ущербом для бизнеса.
- Какой подход выбран в вашем банке?
Чем точнее мы оценим вероятность токсичности, тем больше запустим в банк хороших клиентов и, соответственно, меньше плохих. Вопрос заключается в том, как отличить «хорошего» от «плохого». И этот вопрос — к аналитикам.
Нам удалось разработать достаточно точные предиктивные алгоритмы, которые показывают вероятность того, что клиент будет токсичным. Когда клиент обращается в банк за открытием счета, мы выводим коэффициент, показывающий вероятность его токсичности, по профилю, состоящему из 60 параметров. На основании полученного коэффициента банк принимает решение — открыть счет данному клиенту или отказать ему.
- На основе каких данных рассчитывается этот коэффициент?
Часть данных берется из анкет, заполняемых клиентом. Помимо внутренней базы банка, мы используем также базы ФНС и системы «Спарк» информационного агентства «Интерфакс». Когда клиент заходит в банк, мы уже имеем информацию о его деятельности, оборотах в других банках, взаимодействии с физическими и юридическими лицами, включая как добросовестных контрагентов, так и находящихся в черных списках. Всю совокупность информации обрабатываем, используем для моделирования и отсеивания клиентов в ходе всего их жизненного цикла в банке.
- В чем были основные сложности?
Сложно скомбинировать множество признаков таким образом, чтобы по 60 показателям присвоить клиенту итоговый балл и получить в итоге скоринг по степени токсичности. Слишком большая размерность. А в совокупности на разных этапах жизненного цикла клиента в банке анализируется порядка 320 характеристик. Сопоставить их и превратить множество значений в один-единственный скоринг нелегко.
Но математики с такими задачами справляются лучше, чем эксперты и инструментарий а-ля Excel. По профилям всех клиентов строится математическая модель, алгоритм предусматривает ее самообучение. Процесс обучения модели практически эквивалентен процессу ее создания.
- То есть токсичных клиентов она учится распознавать так же, как Google — котиков?
Да. В отличие от искусственного интеллекта человек не способен мыслить в пространстве 60 признаков, человеческий мозг не справляется с решением задач высокой размерности. Математический алгоритм под управлением человека решает задачу идентификации хороших и плохих клиентов гораздо лучше, нежели человек.
Самая большая проблема — подготовка данных, которые инженеры собирали и раскладывали «по полочкам» в базе данных. Это 90% всех трудозатрат. Затем математики разработали модель, при этом мы используем стек свободно распространяемого программного обеспечения, языки R и Python.
В дальнейшем во фронт-офисные системы банка внедрили шаблоны для заполнения сотрудниками. Из этих шаблонов информация уходит на серверы банка, там обрабатывается, и результат возвращается в офисную систему в реальном времени. Таким образом, при обслуживании в офисах банка каждому клиенту ставится в соответствие некоторая степень токсичности, и в зависимости от полученного результата счет ему открывают или не открывают. Эта модель уже больше года функционирует во всем банке и показала свою значимость.
- Каких бизнес-результатов удалось достичь?
Доля счетов, открываемых малым бизнесом и индивидуальными предпринимателями, выросла в полтора раза. Значительный темп роста малого бизнеса — это огромные прибыли для банка, полученные благодаря точному прогнозированию и разделению хороших и токсичных клиентов. Мы можем увидеть, в каких городах и отраслях доля токсичных клиентов выше, а также насколько она выше в компаниях с упрощенной системой налогообложения и там, где бухгалтер и генеральный директор — одно лицо. Кроме того, налицо очевидная монетизация деятельности крупнейшего департамента банка.
Проект оказал влияние на весь банк. После его реализации предиктивная математика стала применяться и в решении других задач. Число наших проектов растет, и общая стоимость портфеля проектов оценивается числом с очень большим количеством нулей. Это весьма значимый для банка результат, которого добилась небольшая команда математиков и разработчиков в партнерстве с бизнес-заказчиками.
- Что проект дал бизнесу, помимо финансового эффекта? Может ли идти речь о появлении новой бизнес-модели, развитии нового направления бизнеса?
Для любого бизнеса главный эффект — финансовый, притом что степень рискованности не растет. В данном случае степень потенциальных рисков не выросла, а финансовый эффект очень осязаем. Но, естественно, когда растет клиентская база, вполне могут появиться и новые направления для бизнеса.
- Достаточно ли накопленных за год данных, для того чтобы оценить эффективность модели? Может быть, «одобренные» алгоритмом клиенты покажут себя с нехорошей стороны только в следующем году?
Возможно. Ведь у компаний меняются собственники, руководители и, соответственно, меняется поведение. Не исключено, что кто-то неконтролируемо совершит противозаконное действие. Но соотношение риска и доходности значительно улучшилось.
Всё контролировать невозможно, как и выдавать кредиты только клиентам, которые никогда не обанкротятся. Всегда есть доля таких клиентов, но чем меньше эта доля, тем лучше. Бизнес у нас вырос, а риски не выросли.
- Что вас ждет впереди?
Постоянная работа над поддержанием моделей, повышением их точности. Точность достигается как добавлением новой информации, так и применением новых математических методов. У нас появилось много других моделей, которые оценивают информацию от службы безопасности и выявляют токсичных клиентов в ходе всего жизненного цикла в банке. Когда компания достигает порогового значения в неких действиях, мы можем говорить о вероятности того, что данный клиент токсичен. То есть формируется целая экосистема матмоделей, направленная на то, чтобы пресекать противозаконные действия клиентов и в то же время оптимально содействовать развитию бизнеса.
И, конечно, новые заказчики внутри банка, новые задачи и новые модели!
- Как еще вы применяете методы машинного обучения в банке? И какие варианты применения рассматриваете?
Мы изучаем имеющиеся на рынке решения для улучшения операционной эффективности. Применяем искусственный интеллект для анализа данных в продажах и маркетинге, для автоматического прогнозирования котировок на фондовом рынке, для прогнозирования потребности в наличных в банкоматах, кассах и допофисах, для предсказания выхода из строя ИТ-инфраструктуры.
Очень значимое направление — ИИ в работе с должниками, для определения вероятности того, что клиент выйдет в дефолт. Если вероятность высока, с клиентом начинают работать службы банка. Для банкротов рассчитывается вероятность погашения задолженности в течение определенного времени целиком или частично. Для управления воздействием на должника определяется, какая комбинация звонков, уведомлений и выездов повысит вероятность взыскания долга.