Созданная в компании «Почта России» единая платформа больших данных стала основой для интеграции множества информационных систем компании и технологическим фундаментом ее сотрудничества с партнерами по логистическому рынку. Экономический эффект от создания платформы огромен, и оценить его в полной мере еще только предстоит. О внедренной платформе и полученных благодаря ее появлению результатах рассказывает Анна Ахобадзе, руководитель департамента обработки, хранения и аналитики больших данных «Почты России» и номинант на премию CDO Award 2021 .
- Ваша компания — обладатель, вероятно, одного из самых крупных массивов данных в нашей стране. Как давно у вас появилась стратегия в области управления данными? Каковы ее основные положения и приоритеты?
Заниматься управлением данными в компании начали достаточно давно, но в течение последнего года мы стали очень активно развивать это направление. Основные положения ИТ-стратегии «Почты России» в области данных вполне понятны: нужно накапливать максимально возможное количество данных, описывать их, верифицировать, проверять их качество и добиваться того, чтобы оно было достаточно высоким на всех уровнях систем и процессов, которые порождают и обрабатывают эти данные. С точки зрения демократизации данных нужно позаботиться о том, чтобы предоставить всем заинтересованным пользователям удобные инструменты для работы с этими данными и для принятия на их основе правильных решений. Наконец, компания рассчитывает на внутреннюю монетизацию накопленных данных. О продаже данных вовне речь не идет.
- Как в компании организовано управление данными?
Ответственность за управление данными в компании лежит на мне. Другими словами, я выполняю роль директора по данным.
Технологическую основу управления данными обеспечивает единая платформа больших данных. Она состоит из нескольких модулей. Один из них обеспечивает сбор данных из различных источников, их предварительную обработку и хранение в кластере Hadoop. Другой модуль предоставляет пользователям набор инструментов для доступа к данным. Третий модуль помогает отслеживать и контролировать качество данных внутри платформы и в других ИТ-системах компании. Для расчетов и дистрибуции витрин данных у нас применяется MPP-платформа. Для потоковой обработки данных используются популярные инструменты Kafka, Spark, Сassandra.
Кроме того, есть модуль описания данных (каталог данных): он содержит информацию о том, какими именно данными компания располагает и какие методы расчетов следует применять для определения тех или иных показателей. Этот модуль создан, для того чтобы помочь сотрудникам правильно пользоваться имеющимися данными.
Еще один модуль помогает обеспечить монетизацию данных. По сути, это инфраструктура для Data Science, разработки и продуктивной эксплуатации аналитических приложений, в том числе с использованием машинного обучения и моделей ИИ — для их написания используется популярная платформа Jupyter. Планируем также дополнить этот модуль возможностями для сбора внешних данных.
Информация может передаваться в платформу как один раз в сутки, так и в режиме, близком к реальному времени. Это одна из ключевых систем в архитектуре нашего ИТ-ландшафта. Она обеспечивает не только сбор и накопление данных, но и их обработку и передачу в различные системы для последующей работы.
- Как давно идет работа над созданием и развитием платформы?
Платформа создается в рамках масштабного долгосрочного проекта, который продолжается около трех лет. В минувшем году ее развитие шло особенно активно: темпы совершенствования платформы выросли в два раза. Это объясняется и тем, что к началу прошлого года уже была в целом завершена работа над базовыми элементами платформы, и тем, что именно в этот период работа над платформой была признана одним из приоритетных направлений развития ИТ в компании.
За минувший год был значительно расширен состав пользовательских сервисов, сформирована база знаний по использованию инструментов. Количество пользователей платформы выросло более чем в два раза. Кроме того, были сформированы KPI качества данных по ключевым сущностям компании, выстроены процессы мониторинга этих KPI.
- Какие основные бизнес-задачи решаются с помощью платформы? В каких бизнес-процессах она применяется?
Платформа применяется в огромном количестве бизнес-процессов. На ее основе рассчитываются ключевые показатели и принимаются различные управленческие решения. Она служит основой для исследований различных гипотез относительно бизнес-потенциала новых продуктов и их ценообразования. Наконец, поступающие из платформы данные используются в ключевых системах компании, в том числе тех, что поддерживают работу производственных подразделений.
- Как удалось совместить в единой платформе самые разные функции и возможности для решения таких разнообразных по масштабам и специфике аналитических задач?
Собственно, наша платформа для того и создавалась, чтобы с ее помощью решать самые разные задачи. Ключевое преимущество использования платформы заключается в том, что единая для всей компании модель данных помогает привести их в порядок, позволяя удовлетворять требования самых разных бизнес-заказчиков. Более того, платформа обеспечивает не только единое хранение данных, но и единую их интерпретацию, помогая упорядочить их и сделать понятными для всей компании.
В настоящее время в системе хранится около 5,5 Пбайт данных, для их обработки и анализа используется более 200 серверов.
- Кто является непосредственными основными пользователями платформы? В каких подразделениях компании они работают?
Платформу используют сотрудники производственных подразделений и почтовых отделений (у «Почты России» 42 тыс. отделений), которые отслеживают посылки и письма. Кроме того, с ней работают аналитики — и те, кто изучает информацию по отдельным продуктам компании, и те, кто отвечает за подготовку данных для принятия решений руководителями различного уровня. Сейчас мы активно привлекаем к работе с платформой наших топ-менеджеров.
Разным пользователям мы предоставляем разные инструменты для доступа к данным: аналитики предпочитают работать с витринами данных, руководители хотят получать наглядные и содержательные дашборды, сотрудникам производственных центров и почтовых отделений мы предоставляем отчеты, соответствующие их специфике деятельности.
Прежде, до создания единой платформы, пользователям нередко приходилось сталкиваться с ошибками ручного ввода и противоречивыми данными, взятыми из разных источников. К тому же не было уверенности в их полноте. Единая платформа хранит и предоставляет исчерпывающие и достаточно качественные данные.
- Какие результаты достигнуты благодаря созданию и использованию единой аналитической платформы? Что в компании удалось улучшить с ее помощью?
Приведу в пример интеграцию систем «Почты России» и Cainiao, логистического оператора AliExpress. Как известно, AliExpress — один из ключевых партнеров «Почты России». Благодаря интеграции наших баз данных об отправлениях, мы повысили непротиворечивость и целостность информации, в результате чего количество проблемных посылок (не дошедших до адресата или пришедших с большим отставанием от стандартных сроков доставки) уменьшилось более чем в два раза. И поскольку потоки отправлений, следующих между Cainiao и «Почтой России», огромны (счет идет на сотни миллионов посылок в год), мы получили огромный экономический эффект.
Появление платформы обеспечило и масштабный косвенный экономический эффект. Наши аналитики смогли оперировать более точными и полными данными, в результате руководители получили возможность быстрее принимать управленческие решения, а коммерческие подразделения научились создавать и быстрее выводить на рынок улучшенные и более востребованные продукты.
Платформа обеспечила интеграцию множества информационных систем компании, сопровождающих почтовые отправления в разных регионах и производственных подразделениях. Это помогло оптимизировать наши внутренние логистические процессы и ускорить доставку отправлений. В масштабах компании эти улучшения дают огромную выгоду.
Вот еще один пример оптимизации: в ходе проекта создания сети почтаматов на основе данных из единой платформы мы успешно решили задачу оптимальной расстановки этого оборудования по почтовым отделениям. Так или иначе, выгоду от создания платформы получили практически все подразделения компании. Этот эффект нам еще предстоит оценить.
Важнейшим достижением стало то, что, благодаря улучшению работы с данными, компания стала гораздо более зрелым и компетентным в технологическом плане логистическим партнером. В настоящее время мы сотрудничаем с 10 крупнейшими eCom-игроками России.
- Как внедрение единой платформы повлияло на корпоративную культуру работы с данными?
Наши сотрудники осознали, что необходимо использовать всю совокупность данных. И такая возможность появилась у них благодаря единой платформе. Они стали больше доверять данным, которыми пользуются, и активнее применять их в своей работе.
Существенно изменилось и отношение коллег к качеству данных: они осознали, насколько важно контролировать качество данных там, где они порождаются, и стали с гораздо большей ответственностью заботиться о том, чтобы данные изначально были правильными.
- По каким направлениям планируется развивать платформу в ближайшем будущем?
В ближайшее время мы предполагаем сосредоточить усилия на основных направлениях Data Governance: дальнейшем повышении качества данных, развитии описания данных, а также монетизации данных и извлечении различных выгод от их использования, в том числе с помощью Data Science, машинного обучения и других популярных технологий.