ID Collect: интеллектуальная работа с должниками

Андрей Савгуров, директор по анализу данных ID Collect, — о создании скоринговых моделей, позволяющих выстроить эффективную работу с портфелями задолженностей и оптимизировать взаимодействие с должниками.

Работа с просроченной задолженностью не только давно вышла в правовое поле, но и стала технологичным бизнесом, напрямую зависящим от аналитических инструментов. Анализ качества приобретаемых портфелей задолженности напрямую влияет на прибыльность компании и эффективность процессов взыскания, а скоринг должников становится основой для персональной работы с ними.

Сервис по возврату проблемной задолженности ID Collect, являющийся частью международной финтех-группы IDF Eurasia, создавался с пониманием того, что работа с данными важна для общего успеха бизнеса. Андрей Савгуров, директор по анализу данных ID Collect и номинант на премию Data Award 2022 , рассказывает об истории реализованных в компании проектов и достигнутых результатах.

— Как в компании зарождалась работа с данными?

Еще изначально, только запуская компанию, мы делали ставку на технологичный подход. С самого начала было ясно, что для принятия правильных управленческих решений по покупке портфелей задолженностей нужно основываться на точных количественных данных по сборам, поведению должников, операционным показателям, обработке долгов и т. д. Поэтому требуется хорошо понимать, чем одни портфели отличаются от других; почему какие-то долги взыскиваются лучше других; чем банковские должники отличаются от должников сервисов альтернативного кредитования; в чем различия при взыскании задолженности по разным кредитным продуктам.

— С чего и когда вы начали? Что было сделано за это время?

Мы начали в 2018 году, когда было принято решение создать аналитическое хранилище данных. В нем мы собирали клиентские данные, статистически значимые показатели по должникам, по их поведению, по сборам. За это время провели большую работу: собрали все исторические данные по приобретенным портфелям, поработали над качеством данных, частично обогатили их. Кроме того, провели аналитику самой эффективности взыскания. Нам удалось понять, как эта эффективность зависит от разных типов портфелей с разными параметрами. Проанализировали, какие параметры сильнее всего влияют на собираемость, и, наконец, разработали скоринговую систему, которая эту собираемость прогнозирует.

— Какова цель реализуемых в компании проектов в области работы с данными?

У нас две большие цели по работе с данными. Первая — как можно точнее давать оценку прогнозов перед покупкой портфеля, чтобы точнее оценить доходность и максимальную цену, которую мы можем дать. Вторая цель — правильно отслеживать и анализировать эффективность уже сделанных вложений. Это позволяет нам улучшать процесс взыскания, повышать прибыльность.

— Как решается вопрос качества данных? С этим традиционно возникают большие проблемы…

На качество данных мы сразу обратили пристальное внимание, так как без этого эффективную аналитику и вообще скоринговую модель создать невозможно. Поэтому у нас есть выделенный аналитик по качеству данных, который занимается контролем качества информации, поиском ошибок и постановкой задач по их устранению, обогащением базы данных и т. д.

— В чем заключалась наболевшая проблема бизнеса? В чем суть реализованного проекта?

Основная проблема заключалась в необходимости прогнозировать доходность портфелей просроченной задолженности. Главная цель — не сработать себе в убыток при покупке портфеля и максимизировать прибыль. То, что мы сделали, позволяет заранее оценивать рентабельность каждого портфеля и понимать, какую маржу мы получим, какую максимальную цену можем дать по тому или иному портфелю, чтобы в итоге сделка оказалась экономически выгодной. Вообще, цессионные портфели приобретаются на специализированных площадках по принципу аукциона. Поэтому всем участникам, которые торгуются на них, важно понимать, где проходит граница цены, которую они готовы дать по тому или иному портфелю, чтобы покупка в итоге стала прибыльной. И еще более важно сразу отсеивать низкорентабельные и тем более убыточные предложения.

— Что собой представляет решение?

На данный момент это скоринговая модель, написанная на Python. Перед торгами к нам приходит реестр с данными по должникам. По каждому портфелю, еще до покупки, в обезличенном виде доступен определенный набор данных: социально-демографические параметры (возраст, пол, образование, социальный статус), сумма задолженности, платежная дисциплина должника, сумма процентов по основному долгу, сведения о передаче задолженности в коллекторское агентство и пр.

Мы прогоняем эти данные через скоринг и оцениваем, какую сумму денег мы можем взыскать в итоге. Наша финансовая модель берет прогнозы сборов, считает приблизительные расходы, которые мы понесем, добавляет маржу. В зависимости от этих параметров высчитывается максимальная цена, которую мы можем дать за портфель.

— Какие источники данных использовались в ходе проекта? И как в целом определяется, какая информация нужна?

Источников данных несколько. Основной источник — наша CRM-система. В ней мы храним всю информацию по долгам, портфелям, клиентскую информацию по должникам. Там же находится история работы с должниками, сведения об их платежном поведении, в том числе данные от предыдущего кредитора, анкетная информация и т. д. Проведя анализ, мы понимаем, какие параметры имеют высокую информативность.

— Какие инструменты применяются и почему именно они?

У нас есть несколько инструментов. С точки зрения баз данных используются Microsoft SQL Server, Oracle и Mongo DB, все это сливается в корпоративное хранилище ClickHouse. Для визуализации отчетности мы применяем Tableau, для разработки скоринга — модели Python. Это весьма популярные инструменты, с ними работают многие, и для решения наших задач они весьма эффективны. Ну и еще одна из причин: эти инструменты применяются во всей финтех-группе IDF Eurasia.

— Какие ресурсы потребовались для реализации проекта?

В ходе проекта команда несколько трансформировалась, но над последней моделью работали пять человек: два дата-сайентиста непосредственно разрабатывали скоринговые модели; два дата-инженера готовили дата-сеты, анализировали весь наш цессионный портфель и предлагали гипотезы по улучшению; один эксперт занимался качеством данных. По времени создание последней модели заняло около 4–5 месяцев.

— В чем заключалась самая большая проблема в ходе работ?

Как это обычно бывает, главная проблема — с качеством данных. Но стоит отметить и отсутствие достаточного количества данных для обучения. Со временем эта проблема решается. В дальнейшем уровень точности прогнозов будет планомерно повышаться по мере обогащения модели все большим объемом исторических данных.

— Какие эффекты удалось получить и за счет чего?

Нам удалось существенно повысить точность прогноза сборов по портфелям за счет разработки отдельных моделей по разным типам продуктов, сегментов, а также секторов — кредитных организаций и банков. Кроме того, мы смогли ощутимо улучшить качество нашего совокупного портфеля, находящегося в работе, за счет более точного анализа. Делая оценку перед покупкой, мы приобретаем портфели с более высоким уровнем собираемости.

Если говорить о наших показателях в цифрах, то после запуска скоринговых моделей мы уменьшили издержки почти на 25%, снизили ошибочность прогнозов примерно на 40%, а также повысили собираемость минимум на 15%.

— А каких результатов вы ожидали сами?

Нам удалось не только достичь желаемых результатов, но и в какой-то мере даже превзойти их. Мы не останавливаемся, постоянно совершенствуемся, пробуем новые модели, новые подходы, новые методы. Тут нет предела совершенству.

— Удалось ли показать экспертам из бизнеса что-то новое?

Разумеется, опытные коллеги, работающие с взысканием задолженностей, прекрасно понимают, какие параметры портфеля сильнее всего влияют на собираемость и эффективность. Но все же скоринговая система выявила некоторые неожиданные параметры, которые на деле оказались одними из самых важных и серьезно повысили качество модели. Эксперты не предполагали, что они так важны.

— Что дальше? Какими вы видите дальнейшие направления развития своей работы?

Мы активно работаем над разработкой поведенческих скоринговых моделей. Они позволяют анализировать поведение клиентов уже после покупки их задолженности, после начала взаимодействия с ними.

Кроме того, мы работаем над оптимизацией процессов по линии взыскания (реструктуризация, soft, legal и hard collection), основываясь на анализе данных, применяя машинное обучение для оптимизации издержек и увеличения сборов. Важно понимать, что у всех должников могут быть свои обстоятельства, и мы используем индивидуальный подход, помогая каждому подобрать оптимальные для него условия погашения долга. В частности, мы планируем создать модель по реструктуризации задолженности, которая бы позволяла оценивать наш портфель и определять клиентов, которым можно сделать скидку или реструктуризировать долг. Снизив свои требования, но подняв процент взыскания, мы работаем на максимизацию прибыли компании. И конечно, мы планируем улучшать и точечно донастраивать уже существующие модели.