Вестник цифровой трансформации

SberDevices: аналитическая платформа как «мозг» компании
SberDevices: аналитическая платформа как «мозг» компании

Андрей Евтихов: «У нас появились принципиально новые для компании инструменты стратегического и операционного управления. Переоценить это трудно. Фактически нами построен “мозг” компании – центр нервной системы, состоящей из множества собирающих информацию датчиков»


20:34 10.03.2023 (обновлено: 10:38 15.03.2023)  |  Николай Смирнов | 2537 просмотров



Андрей Евтихов, управляющий директор SberDevices, – о построении собственной аналитической платформы «всё в одном», позволившей обеспечить импортонезависимость и создавшей возможности для перехода к модели data-driven.

Создание и внедрение собственной аналитической платформы «всё в одном» создало в компании SberDevices возможности для перехода к модели data-driven. Проект был начат в конце 2021 года с целью оптимизации затрат на управление данными и аналитику и запуска новых сценариев применения данных для развития бизнеса компании. В феврале прошлого года он превратился в антикризисный с приоритетной целью срочной миграции с иностранных решений. О реализации проекта и полученных в результате возможностях рассказывает Андрей Евтихов, управляющий директор SberDevices и номинант на премию Data Award.

— Что стало причиной реализации проекта? Каковы были проблемы и боли?

Причин было несколько. Во-первых, мы очень серьезно относимся к конфиденциальности данных наших пользователей, и сторонние решения не могли обеспечить наши высокие требования в полной мере. Перед нами встали серьезные ограничения корпоративных политик управления данными в используемых коммерческих решениях. Они касались как возможности использования информации по юнит-экономике продуктов, отдельных типов идентификаторов пользователей.

Следующий вопрос касался снижения будущих затрат на все типы решений для управления данными. Запланированный рост собираемых объемов данных на 2022-2023 годы приводил к значительному нелинейному росту затрат.

Кроме того, интересовали возможности сквозной аналитики, интеграция со специализированными потребителями данных внутри компании: внутренними рекомендательными системами и системами коммуникаций с пользователями.

— Главной целью создания аналитической платформы вы называете переход к data-driven компании. Что вы понимаете под data-driven применительно к SberDevices? И почему пока компанию таковой нельзя назвать?

Под подходом data-driven мы понимаем принятие ключевых решений на основании данных, то есть алгоритмизацию ключевых управленческих решений. Например, на основе данных планируется принимать решения о продолжении и размере инвестиций в развитие продуктов – на основании динамики показателей юнит-экономики, о размере инвестиций в продвижение продуктов в онлайн-каналах – на основании динамики показателей привлечения пользователей, о коммерческих условиях взаимодействия с партнерами, о перераспределении ресурсов продуктовых команд между задачами – на основании динамики влияния ошибок на продуктовые показатели.

На данный момент SberDevices находится в процессе перехода к полной data-driven организации. Как минимум, нам требуется накопление исторических данных для обучения точных аналитических моделей для прогнозов и дальнейшее развитие системы A/B-экспериментов, накопление практического опыта применения конкретных продуктовых показателей для принятия объективных и эффективных решений. Важна дальнейшая демократизация инструментов аналитики для расширения возможностей их использования со стороны тимлидов, руководителей команд и подразделений, руководителей старшего уровня. Внедрение подходов data-driven идет последовательно для отдельных продуктов, ожидается полный их охват до конца 2023 года.

— Как сложилось, что в компании работало множество зарубежных коммерческих решений? По каким принципам они подбирались?

Эта картина типична для большинства компаний. Мы всегда ориентировались на индустриальные стандарты для решений по управлению данными. Например, для мобильной аналитики это Firebase, а для технического мониторинга приложений – Sentry. Использовали решения для аналитики, поставляемые партнерами, в частности сервисы аналитики от поставщика платформ управления устройства для умного дома Tuya. Решения для маркетинговой аналитики Data.ai использовались нашими партнерами. При выборе ориентировались на наличие практического опыта работы с решениями у ключевых сотрудников компании, предлагаемые партнерами коммерческие условия использования поставляемых решений, проводили конкурсные процедуры по выбору наилучших решений, так произошло с Amplitude.

— Что требовалось реализовать в ходе проекта?

С технической точки зрения было необходимо подключить к единому хранилищу данных все источники данных, реализовать интеграции с потребителями обработанных данных. При этом требовалось обеспечить хранение и возможности использования «по запросу» всех собранных сырых данных в течении как минимум пяти лет с учетом запланированного роста объемов собираемых данных. Еще одна важная задача – создание аналитических витрин для всех продуктов (по состоянию на момент старта проекта их было более 60) и их поддержка в актуальном состоянии. И, конечно, возможность проведения аналитики за любой период до миграции на новое решение. Это подразумевало бесшовную интеграцию исторических данных из заменяемых систем с «новыми» данными

— Объем работ велик. В какой последовательности и в какие сроки планировалась миграция?

Плановые сроки миграции на старте проекта были оценены в 12 месяцев. Разработка и внедрение платформы осуществлялись внутренними ресурсами компании.

Структура работ была основана на последовательном переключении каждого источника данных на целевое решение. В рамках каждого этапа типовой состав задач выглядел следующим образом: замена компонентов по сбору данных непосредственно на источниках, параллельный сбор данных в ранее используемые системы и в целевое разрабатываемое решение, воспроизведение аналитических витрин в целевом решении, отключение источника данных от ранее используемых систем.

План миграции был сформирован на основании скоринга всего портфеля источников данных в зависимости от приоритета развития продуктов компании.

— В марте проект стал «антикризисным». Как это повлияло на его реализацию, что изменилось?

Плановые сроки миграции сократились с года до четырех месяцев. При этом мы сфокусировались на задачах экстренного переключения всего собираемого потока данных на собственную платформу и экстренной выгрузки исторических данных из всех коммерческих систем, необходимо было сохранить накопленные данные в полном объеме. Наша цель заключалась в минимизации потенциальных потерь данных от миграции. Задачи по созданию аналитических витрин, визуализации были перенесены на последующие этапы. До высвобождения ресурсов команды развития платформы задачи продуктовой аналитики решались специально сформированной «пожарной» командой, которая работала по индивидуальным запросам продуктовых команд.

Собственные API и средства разработки были максимально адаптированы под уже существующие форматы используемых коммерческих решений. Это было важно для снижения затрат на переключение собираемых данных на собственное решение.

Конечно же, изменились критерии выбора технологий для отдельных компонентов системы. В качестве основного критерия выбора стали ориентироваться на open source. От выбранных ранее технологий, не удовлетворяющих обновленным критериям, отказались.

Изменились требования к интеграции платформы с внутренними системами компании по причине экстренной миграции на новый, «антикризисный» стек технологий для всех используемых в компании решений. В частности, это коснулось коммуникационных сервисов, системы управления задачами, CRM, системы управленческого учета, системы управления НСИ.

— Какие решения были выбраны и почему?

С учетом новых условий появились и антикризисные критерии выбора решений. Помимо принадлежности к open source, требовалась проверка кода решений со стороны нашего ИТ-департамента, и, что немаловажно, наличие опыта работы с решениями у действующих сотрудников компании. Это позволило обеспечить быстрый старт и получить практические результаты для компании в течении первого месяца работы в «антикризисном» режиме.

В итоге сбор данных с источников осуществляется с помощью собственных продуктов Device+Mobile DataSDK и DataAPI. Основными решениями, используемыми для построения платформы данных, стали Kafka – для доставки потоковых данных с источников, Hadoop и S3 – для хранения данных, Spark и Airflow – для обработки данных, Postgres и ClickHouse – для создания витрин данных и отчетности, Metabase, Grafana и Superset – для визуализации, Elastic – для поиска, Jupyterhub – для исследования данных.

— Что является фишками созданного решения? Чем можно гордиться?

В результате получилась полностью открытая платформа. Пользователи могут создавать любые собственные запросы к данным, сохранять их в виде витрин, визуализировать в виде кастомизированных отчетов в BI и т.п., а также подключать собственные источники данных по типовым протоколам. Конечно же, команда развития платформы использует специальные инструменты мониторинга пользовательских запросов и помогает исправлять ситуации перерасхода выделенных квот ресурсов. Она же проверяет источники на предмет соответствия корпоративным политикам сбора данных.

Стоит отметить автоматизированное выявление объектов, требующих оптимизации и исправления (ETL-процедуры, представления, физические таблицы, аналитические витрины, ad-hoc запросы к данными), а также отслеживание отклонений от среднего времени выполнения для регулярных ETL-процедур и времени обновления аналитических витрин. Широко изучаются показатели использования платформы со стороны пользователей, в том числе показатели аудитории самой платформы в разрезе сотрудников отдельных продуктов и подразделений.

— Вы собираете телеметрию, технические и пользовательские события, информацию о рабочих процессах. Приведите несколько примеров важных data-продуктов, основанных на этих данных.

В первую очередь запустили продукты для развития бизнеса: умные таргетированные напоминания для продлений подписок пользователей на сервисы, умные пользовательские сегменты для тартегированной рекламы на устройствах. Кроме того, разработаны продукты для сопровождения и поддержки клиентов: оперативная реакция на инциденты с умными устройствами у пользователей, оперативный поиск полной информации обо всех событиях на устройстве. Важным для нас направлением являются и продукты для поддержки принятия решений – например, планирование рабочих задач развития продуктов: балансировка по типам задач change, run, bug в зависимости от предыдущей динамики по решению задач соответствующих типов и потенциального влиянию на продуктовые показатели.

— Каких результатов удалось достичь за 2022 год? Что можете считать самым важным?

В итоге на созданную платформу мигрировали более 80 продуктов, включающих более 4,5 тыс. продуктовых показателей. Подключено уже более 200 уникальных источников данных – это все источники данных из использовавшихся ранее сторонних решений. Естественно, у нас нулевые лицензионные платежи. Что касается скорости разработки и внедрения новых продуктовых метрик, то она в среднем может составлять один рабочий день.

В результате проекта был сформирован Центр компетенций по данным, сотрудники которого консультируют продуктовые команды по составу собираемых данных, доступным витринам данных и аналитическим показателям, проводят регулярные корпоративные обучающие мероприятия для сотрудников и в целом активно продвигают в компании культуру работы с данными.

Важно, что платформа поддержала планы нашего продуктового развития и развития бизнеса. На 2022 год было запланировано подключение телеметрии устройств и большого количества новых технических событий внутри приложений. Рост количества собираемых событий по сравнению с 2021 годом оказался десятикратным.

— А каких эффектов еще можно ожидать?

Мы ожидаем роста аудиторных показателей продуктов за счет расширения использования данных для персонализации пользовательского опыта, «умных» рекомендаций. Например, таких показателей, как увеличение частоты использования продукта и увеличения времени, проводимого пользователем с продуктом.

Кроме того, ожидаем рост показателей юнит-экономики продуктов за счет использования «умных» рекомендаций типа cross-sale, up-sale, down-sale. Это должно привести к ускорению роста среднего чека и частоты покупок с помощью наших умных устройств.

— Пытаетесь ли вы оценивать финансовые эффекты? Сколько удалось сэкономить и заработать?

На 2022 год в качестве основного финансового эффекта от проекта была определена экономия фактических затрат на целевое решение по сравнению с запланированными ранее затратами на коммерческие продукты. В итоге совокупная стоимость владения созданным решением сократилась втрое.

— Какую роль играет этот проект для компании?

У нас появились принципиально новые для компании инструменты стратегического и операционного управления. Переоценить это трудно. Фактически нами построен «мозг» компании – центр нервной системы, состоящей из множества собирающих информацию датчиков.

Платформа, созданная в результате выполнения проекта, станет новым источником доходов для компании и основой для всех сценариев по применению данных для развития бизнеса. Например, речь идет о таргетировании маркетинговых и рекламных коммуникаций на цифровых поверхностях СберДевайсов и персонализации опыта пользователей.

— Каковы направления развития платформы? И какие возможности она открывает в будущем?

100% продуктов будут использовать аналитику в реальном времени. Каждый пользователь будет иметь предрасчитанный анонимный профиль характеристик, обновляемый в режиме реального времени.

Кроме того, мы планируем подключить новые источники партнерских данных, вдвое сократить затраты на обработку единицы данных по сравнению с использовавшимися ранее решениями. Запустим подсистемы прогнозной аналитики для всех продуктовых показателей.

Все собираемые данные будут соответствовать критериям ML-ready (адаптация массивов данных для использования в моделях машинного обучения). Это позволит нам значительно улучшить результаты работы аналитических моделей и вывести «мозг» нашей компании на новый уровень интеллектуальной поддержки нашего бизнеса.

Теги: Сбер Data Award

На ту же тему: