Сбербанк: Большие Данные для быстрой отдачи

Какое место занимают Большие Данные в деятельности департамента корпоративных клиентов Сбербанка России? Действительно ли полезны для бизнеса социальные сети? На эти и другие вопросы отвечает Елена Ивашечкина, заместитель директора департамента корпоративных клиентов Сбербанка.

В Сбербанке России работа с данными считается одним из важнейших направлений для роста бизнеса — здесь строят организацию, «направляемую данными» (data-driven), и уже накопили в этом деле немалый опыт. В преддверии VI Российского форума Big Data'17, который издательство «Открытые системы» традиционно проводит в конце марта, Елена Ивашечкина, заместитель директора департамента корпоративных клиентов Сбербанка, — один из ключевых докладчиков форума — рассказала читателям «Директора информационной службы» (CIO.ru) о том, какое место занимают Большие Данные в деятельности департамента. Ивашечкина отвечает за развитие отношений с корпоративными клиентами, управление Большими Данными и предсказательными моделями, а также за создание уникального клиентского опыта.

— Какие основные задачи вы решаете и как используются для этого Большие Данные?

Наш департамент отвечает за стратегию работы с данными для всего корпоративного блока.

Вместе с ИТ-подразделениями мы работаем на всех участках цепочки создания ценности из данных — от сбора сырых данных до их агрегации, построения моделей и предоставления потребителям продуктов, улучшенных благодаря работе с данными.

Наше подразделение выполняет несколько основных задач в рамках корпоративного блока.

Мы агрегируем данные, задаем правильную инфраструктуру и модель данных для всех отделов. Это наша задача номер один, так как данные обеспечивают 70-80% бизнес-результата. Коллеги могут использовать их для своих целей — например, для создания продуктов или актуализации перечня документов.

Вторая наша задача — увеличение доходов от вторичных продаж, зависящих, помимо прочего, от удовлетворенности клиентов теми продуктами, которые мы им предлагаем. Здесь тоже множество задач, связанных с качественными данными и параметрами их обработки, и снова инфраструктура Big Data выходит на первое место. Число клиентов огромно, объем данных колоссален, и эффективно обрабатывать их на старых технологиях невозможно.

Третий блок задач, который мы выстраиваем в течение последнего года, связан с data science — разработкой моделей на основе собираемых данных и использованием методов машинного обучения. Это новое перспективное для нас направление, в том числе и с точки зрения получения дохода. Мы делаем модели как для себя, с целью увеличения вторичных продаж и конверсии (процента превращения потенциальных продаж в реальные), так и для других структурных подразделений, например департамента кредитных продуктов и кредитного мониторинга, оцениваем склонность клиента задержать выплаты по кредиту. В рамках внедряемого в банке Agile-подхода департамента корпоративных клиентов — сквозная структура, предоставляющая своих специалистов для построения моделей данных на время реализации проектов в разные команды и подразделения. У нас уже есть хорошие модели оттока, позволяющие принять меры для сохранения клиента, и мы внедряем их в промышленную эксплуатацию. Причем эти модели дают возможность прогнозировать не только полный уход клиента, но и сокращение использования наших услуг.

Четвертая область, которой мы занимаемся, — «клиентский опыт». Это управление всеми точками контакта с клиентом на протяжении всего взаимодействия с ним, сквозной анализ, позволяющий взглянуть на процессы глазами клиента и выстроить клиентоцентричную организацию. Сегодня такая деятельность тоже становится максимально технологичной. Собираются данные о том, как клиент нас нашел, легко ли это было, удобно ли было открыть счет, пришлось ли ждать, просил он об услуге или ему ее предложили, как он работает с интернет-банком и т. д. Собранной в разных точках информации очень много, поэтому задачи по ее обработке и выдаче клиентам своевременных и правильных ответов, по сбору клиентских откликов, анализу корневых причин проблем (для исключения повтора таких ситуаций) ложатся на технологические платформы. Мы активно изучаем когнитивные технологии и делаем на основе искусственного интеллекта проект по автоматизации первой линии поддержки корпоративных клиентов — контакт-центра. Мне знаком опыт бразильского банка, уже реализовавшего такой проект.

— Внедрение искусственного интеллекта для поддержки клиентов — это вопрос улучшения качества обслуживания или экономии?

И то, и другое. Конечно, мы преследуем цель повысить качество, но и экономия колоссальная. Мир уходит в онлайн, люди часто не хотят долго ждать ответа оператора, им требуется инструмент, чтобы можно было получить грамотный ответ, но не «висеть» при этом на линии.

— Сегодня многие обращаются к анализу поведения пользователей в социальных сетях, но на практике часто ценность этой информации близка к нулю — слишком маленькое число потенциальных клиентов попадает в эти выборки. Очевидно, что наиболее интересные фигуры или ограничивают свою деятельность в соцсетях, или закрывают доступ к своему профилю, или же не присутствуют в соцсетях вовсе. Как это учитывается в создаваемых моделях? Считаете ли вы социальные сети ценным источником информации?

Сами по себе социальные сети не дают хорошего качества моделей, они работают только как дополнительный фактор. Соцсети могут давать прирост на 5-7 пунктов индекса Джини (показатель для измерения качества модели). Это очень много. Соцсети нужно научиться «правильно готовить». Профиль человека в соцсети часто не так информативен, как его окружение. Анализируя окружение, можно понять, что это за клиент. К тому же соцсети сегментированы. Можно условно сказать, что в LinkedIn «сидят» высокодоходные клиенты, а в «Одноклассниках» много региональных SMB-компаний. Поэтому даже та информация, которая открыта, нам полезна. В проекте c одним из поставщиков данных соцсетей мы получили хорошие результаты по поиску высокодоходных клиентов малого и среднего бизнеса.

— По каким критериям оценивается эффективность применяемых алгоритмов анализа данных? И каковы результаты таких оценок на практике?

Эффективность матмоделей и алгоритмов оценивается стандартно: полнота, точность, коэффициент Джини. По уже проведенным инициативам мы смотрим на совпадение с тем, что мы прогнозировали, конверсию и в итоге — на доход, количество сохраненных клиентов, то есть оценка ведется в бизнес-показателях. Начав использовать инструменты data science, за год мы смогли в полтора раза улучшить качество моделей. И теперь, добавляя работу с вендорами данных соцсетей, понемногу повышаем эффективность дальше.

Процент ошибок сильно зависит от конкретной модели, но я считаю, что любая модель лучше, чем случайный отбор. Даже если она дает совсем небольшое улучшение по сравнению со случайным отбором, это все равно лучше, чем работать без модели. Эффективность также зависит от качества и полноты данных, от времени разработки моделей, инструментов и людей, которые этим занимаются. Вопрос в том, какой уровень эффективности следует считать достаточным.

— Но ведь с учетом ресурсов, затраченных на разработку моделей, эффективность «плохой» модели будет сопоставима или даже ниже случайной выборки?

Крайне редко модель не получается, но при ее разработке приходит новое понимание проблемы и происходит столько правильных итераций по работе с данными, что это время нельзя считать потерянным зря.

— Инвестиции в Большие Данные связаны прежде всего с ожиданиями высокой отдачи в будущем. А в сочетании с какими технологиями Большие Данные способны принести наиболее быстрый эффект?

Большие Данные сейчас работают с технологиями машинного обучения и, на мой взгляд, дают отдачу быстро. Всего за год плотной работы data science мы уже видим результат использования модели, которая увеличивает конверсию и доходность.

Глубокое обучение (Deep Learning) и когнитивные технологии дают отдачу дольше. Популярная сегодня тема — обучение на естественном языке (Natural Language Learning) с использованием голосовых запросов и генерацией голосовых ответов.

Но иногда простые модели, создаваемые быстро, работают лучше, чем сложные, разрабатываемые долго. Я вижу много таких примеров.

— То есть такие технологии имеет смысл применять лишь для очень серьезных задач?

Возможно. А может быть, необходимо еще больше данных. Тут нам многое предстоит сделать: интегрировать все источники, перевести их на инфраструктуру Больших Данных, ускорить все процессы. Наш клиент делает всего несколько транзакций в день, а тот же Facebook «видит» десятки тысяч транзакций по клиенту в день. Чем больше данных и чем правильнее они интегрированы в инфраструктуре, тем эффективнее глубокие методы работы с ними.

— При создании организации, направляемой данными, следует опираться прежде всего на высококвалифицированных специалистов в области data science или же на технологические платформы, которые позволяют работать с Большими Данными бизнес-пользователям?

Одно без другого не может существовать. Мы строим бизнес-платформу, но это не значит, что с ней смогут работать любые бизнес-пользователи. Эта огромная система, содержащая всю информацию о продуктах и все модели, является основой для создания в будущем экосистемы для клиентов. Специалисты по данным и бизнес-платформа дополняют друг друга: специалисты могут делать хорошие модели на тестовых выборках, платформа же решает проблемы их масштабирования на миллионы клиентов, большие объемы данных и несколько каналов, а также задачи обработки на высоких скоростях и выдачи ответов в реальном времени.

Для создания такой платформы многое сделано и еще многое предстоит. Параллельно мы развиваем компетенции data science, учимся новым методам и заодно это все интегрируем.

— О чем вы расскажете участникам форума Big Data'17?

О том, что интересно мне самой, когда я хожу на такие конференции. Немного о самих данных — полнота и скорость их получения всех очень волнует, так как это конкурентное преимущество. Об инфраструктуре, архитектуре данных, а затем о реальных кейсах на их основе, о том, какие результаты и отзывы от клиентов получаем. Расскажу, как применяются аналитические алгоритмы анализа данных о транзакциях и действиях в социальных сетях, как с помощью программных методов исследования и сопоставления паттернов поведения выявить неблагонадежных заемщиков или найти потенциальных корпоративных клиентов. Кроме того, обычно всех интересует команда и ее взаимодействие с ИТ.