Разработка корпоративного хранилища данных (КХД), внедрение процессов управления данными и создание корпоративного аналитического портала, реализованные на Магнитогорском металлургическом комбинате, стали важным шагом в поддержке цифровых инициатив, реализуемых компанией. О предпосылках и результатах этих проектов рассказывает Дмитрий Ганаев, начальник офиса управления данными «ММК-Информсервис».
— Как развивались на ММК подходы к работе с данными, какие этапы вы можете выделить?
С середины 1990-х и до 2015 года развитие автоматизированных информационных систем происходило широкими темпами, развивались и производственные учетные системы, и системы корпоративного уровня. Соответственно, росла потребность в интеграции всех систем между собой, причем во всех направлениях – как снизу вверх, так и сверху вниз. Также росла потребность в совместном анализе данных, хранящихся в разных системах, увеличивалось количество интеграционных сценариев. Для реализации задач по консолидации данных появились первые проекты по созданию хранилищ данных, но они были относительно небольшие, объединяющие смежные системы – например хранилище технологических данных, хранилище данных по экономической деятельности и т.п.
Параллельно развивались системы продвинутой аналитики, системы-советчики. В 2016 году начали появляться первые системы, основанные на работе математических моделей, построенных с использованием машинного обучения. Системам такого класса требуется максимальное количество статистических данных как о технологических процессах, так и о процессах планирования и учета производства продукции. Как следствие, привлечение аналитиков data science потребовало и наличия качественного описания имеющихся данных.
В 2018 году при предпроектной проработке требований по модернизации корпоративной сервисной шины ESB было принято решение не только расширить функционал шины, но и качественно описать данные, которые передаются между ИТ-системами. Одновременно с этим, было принято решение о создании хранилища данных корпоративного уровня для расширения возможностей анализа данных.
Таким образом, можно выделить несколько этапов: широкое развитие ИТ-систем, возникновение предпосылок для консолидации разрозненных данных, принятие решения о построении корпоративного хранилища для расширенной аналитики, увеличение нагрузки на интеграционные механизмы, принятие решения о развитии функций управления данными.
— Когда в компании появился офис данных, в чем компания видит его роль?
Офис по управлению данными как отдельное подразделение появился в январе 2021 года в «ММК-Информсервис», которое является выделенной ИТ-компанией ММК. Основная его задача в настоящее время – разработать и внедрить основные фундаментальные процессы управления данными в ММК. Офис занимается организацией взаимодействия участников этих процессов для общего повышения уровня знаний о данных, что должно помочь принимать более качественные решения как при использовании ИТ-систем, так и при разработке новых проектов.
— Какое место занимает проект создания КХД и системы управления данными среди комплекса цифровых инициатив ММК?
И проект КХД, и проект по управлению данными являются в настоящий момент инфраструктурными, поддерживающими проектами. Все цифровые инициативы развиваются собственными проектными командами, и при возникновении задач по консолидации данных они решаются в рамках собственных проектов. Офис управления данными является центром компетенций по задачам понимания, поиска, сбора и хранения данных, требуемых для реализации цифровых инициатив ММК.
— Когда был начат проект КХД, какими силами реализовывался, сколько продлился?
Проект построения КХД был начат в 2019 году, и изначально планировался из нескольких этапов: проектирование платформы, выбор поставщиков и поэтапная разработка. Его реализация осуществлялась группой интеграции, в составе трех-четырех специалистов, а также проектной командой партнера – компании «Крок», осуществлявшей непосредственно работы по проектированию, разработке и развертыванию системы.
В 2021 году стартовал очередной этап, в ходе которого КХД дополнится слоем хранения неструктурированных данных, его завершение планируется в середине 2022 года.
— Какую роль в проекте КХД играет внедрение процессов управления данными, какие именно процессы реализуются?
Процессы по управлению данными начали развиваться уже рядом с функционирующей платформой КХД. Из-за того, что процессы управления данными в части КХД идут вслед за разработкой, первая задача заключалась в том, чтобы провести некую верхнеуровневую каталогизацию тех информационных объектов, которые есть в хранилище.
Принято решение, что проект управления данными будет включать в себя развитие бизнес-глоссария, построение корпоративного каталога данных и развитие процессов повышения качества данных. Общую концепцию и рекомендации по выбору компонентов платформы управления данными мы разработали в сотрудничестве с компанией Deloitte, а практическое внедрение реализовали при поддержке команды DIS Group.
На основании накапливаемого опыта и понимания того, чего именно не хватает в текущей деятельности с точки зрения знаний о данных, сформируются новые требования к процессам разработки и внедрения информационных систем, а также требования к поддержке актуальности знаний о данных.
— Какие были выбраны инструменты и почему?
Технологической платформой для КХД является связка СУБД ArenadataDB и Arenadata Hadoop. Их основными преимуществами стало то, что это кластерные системы высокой устойчивости с возможностью горизонтального расширения мощностей и поддержкой параллельной обработки больших данных. Кроме этого, они основаны на известных высокопроизводительных продуктах, которые продолжают развиваться. Не менее важно, что Arenadata – российский вендор, оказывающий качественную техническую поддержку на русском языке.
В качестве платформы управления данными используются продукты Informatica – Axon Data Governance, Enterprise Data Catalog, Data Quality. Выбор в пользу платформы Informatica был сделан исходя из нескольких факторов. Первый из них – комплексный подход: все компоненты платформы тесно взаимосвязаны друг с другом и в совокупности решают задачи как для ИТ, так и для бизнес-подразделений. Во-вторых, каталог данных EDC позволяет полноценно отсканировать технические метаданные источников данных, имеется процесс интеграции полученных метаданных с терминами бизнес-глоссария. Кроме того, возможности построения data lineage – детальной карты трансформации данных – позволят аналитикам и пользователям лучше и быстрее понимать происхождение показателей, а также ускоряют процесс разработки новых отчетов за счет использования каталога данных и супермаркета данных. Наконец, связка бизнес-глоссария с компонентом мониторинга и повышения качества данных позволит развивать и гибко настраивать процесс контроля качества данных. Важно отметить и наличие сертифицированного тренинг-центра в России с обучением на русском языке.
— Что уже удалось реализовать, а что еще предстоит?
Основные результаты – это наличие у нас инструмента по хранению и обработке больших данных, а также запросов на его применение. В первую очередь, стоит выделить разработку информационных систем корпоративного уровня в рамках «Корпоративного аналитического портала».
Также нам удалось разработать и запустить процессы по сбору информации для разработки систем продвинутой аналитики, выполняемый группой математического моделирования. Это и настройка организационного взаимодействия команд, и настройка процессов поиска и описания данных, и, наконец, загрузка данных в КХД, сразу пригодных для использования аналитиками.
В перспективе предстоит развить и стандартизовать все перечисленные процессы, чтобы разработка любых информационных систем происходила синхронизировано с процессами управления данными.
— Что собой представляет корпоративный аналитический портал, какую миссию выполняет?
Информационная система «Корпоративный аналитический портал» разрабатывается для использования в качества единого источника достоверной, наглядно визуализированной аналитической информации, своевременной и достаточной для эффективного управления всеми сферами деятельности Группы ММК. Портал предназначен для руководителей высшего звена (генеральный директор, заместители генерального директора, другие директора), а также начальников управлений, отделов, аналитиков и специалистов по функциональным областям.
С технической точки зрения портал является BI-системой на основе Tableau, источником информации для которой являются витрины данных, собранные в КХД из различных информационных систем.
— Каких бизнес-результатов уже удалось достичь?
Внедрение аналитического портала приносит ежедневный результат – система принята в эксплуатацию, используется для анализа деятельности предприятия и принятия более эффективных решений ключевыми руководителями. Показателем востребованности такой аналитики может выступать сводная заявка из более чем 300 новых показателей, предложенных подразделениями ММК к расширению аналитических функций портала в 2022 году.
— Основой для каких новых сервисов должна стать построенная платформа данных? Что становится принципиально возможным?
Комбинация из универсального хранилища, описанных данных, построенной на этой основе системы BI-аналитики в связке с понятной стратегией Data Governance позволит в будущем приступить к развертыванию систем анализа, основанных на самостоятельной реализации продвинутого анализа силами опытных пользователей (self-service), даст очередной толчок к развитию продвинутой аналитики и моделирования процессов.
— В каком направлении планируете развивать проекты по работе с данными?
Одним из важнейших следующих шагов является переход к разработке систем контроля качества данных. Для этого требуется выстроить общую концепцию измерения качества, и процессов, которые позволят повышать качество. Например, возможным направлением развития может быть формирование правил качества, их реализация в системе контроля качества (Informatica DataQuality + Axon) и предоставление конечным пользователям информации о качестве предоставляемых данных.
С учетом перспектив self-service качество данных будет актуальной темой для конечных пользователей. Возможности мониторинга качества создадут предпосылки как для повышения уровня аналитики, так и для повышения качества самих данных. Все это позволит ускорить переход к data-driven подходу при принятии решений.