Тренд на использование Больших Данных в ключевой для банков задаче кредитного скоринга начался несколько лет назад, когда стартовали первые проекты с применением открытых данных из Интернета, и сейчас набирает обороты. Подключение дополнительных источников данных делает оценку платежеспособности клиента более точной.
Открытый конкурс по анализу данных, собираемых из различных источников, объявленный «Хоум Кредит», стартовал 1 августа и продлится четыре месяца. Участвовать в нем могут все, кто хочет попробовать свои силы в кредитном скоринге — как профессиональные аналитики, так и любители, молодые специалисты и студенты. Руководство банка надеется найти таланты в этой области.
Участникам предлагается разработать модель кредитного скоринга, основанную на анализе обезличенных персональных данных о поведении клиентов, в том числе данных, полученных из внешних источников. Особенность предлагаемой задачи заключается в том, что данные могут быть неполными, например, не содержать информации о части выданных кредитов, и противоречивыми. Это максимально приближает условия к реальным.
Для выполнения задачи можно использовать любое свободно распространяемое аналитическое программное обеспечение (включая R, Python и другие инструменты), бесплатную версию программного обеспечения SAS University Edition, а также собственные решения, реализованные на общеизвестных языках программирования. В ходе решения задачи участникам предлагается в первую очередь найти способ объединения данных, полученных из нескольких источников, и поиска и фильтрации статистических выбросов. Далее нужно будет разработать гипотезы о том, какие характеристики в поведении заемщиков влияют на их надежность и добросовестность. В частности, сюда могут войти сведения о текущей кредитной нагрузке клиента и история выплат по уже закрытым кредитам.
Общая сумма призового фонда конкурса составляет 300 тыс. руб. Условия участия и требования к оформлению работ размещены на странице конкурса на ресурсе sascompetitions.ru.