Вестник цифровой трансформации

Качество данных, основанное на опыте
Качество данных, основанное на опыте

Вадим Уланов: «Если пользователи по-прежнему тянутся к Excel, значит, с ними недостаточно поработали»


09:47 09.03.2023 (обновлено: 17:59 12.03.2023)  |  Михаил Зырянов | 2585 просмотров



Участники недавней конференции издательства «Открытые системы» поделились своими подходами к получению качественных данных и рекомендациями по решению такой задачи.

Работа секции «Опыт» конференции «Качество данных 2023», проведенной в феврале издательством «Открытые системы», вызвала особый интерес у ее участников. Впрочем, это вполне объяснимо: здесь они смогли познакомиться с самыми интересными из недавно реализованных проектов, связанных с получением и использованием качественных данных.

Миграция и оптимизация аналитических ландшафтов

Весной 2022 года розничная сеть «ВсеИнструменты.ру» столкнулась с серьезной проблемой, ставшей следствием западных санкций: компании пришлось в срочном порядке осуществлять миграцию систем хранения данных и аналитики из облачных сервисов одного из международных провайдеров на локальные мощности, причем этот переход следовало провести без остановки или заметных сбоев операционных бизнес-процессов компании. На то, чтобы вывести аналитику из облака, провайдер отвел всего две недели.

По словам Вадима Уланова, директора по данным компании «ВсеИнструменты.ру», на тот момент в ландшафте аналитики царил «зоопарк» технологий: PHP, Oracle, PostgreSQL, Golden Gate, Python, ClickHouse, PowerBI и пр. Последний рефакторинг кода проводился более трех лет назад, за это время многие из тех, кто разрабатывал процедуры для хранилища данных, покинули компанию. В результате образовалось значительное количество унаследованных программных модулей, которые были плохо документированы и практически не поддерживались. Их работа была нестабильной (сбои случались часто), поэтому исправления в них приходилось вносить регулярно.

От использовавшегося прежде ПО с открытым кодом решили отказаться. Вместо него выбрали платформу с максимальным количеством нужных приложений в рамках одного стека. Полный переезд на новую платформу занял около полутора месяцев. Команде проекта удалось не только реализовать весь базовый функционал, существовавший прежде, но и высвободить около 10 млн руб. в год за счет отказа от облаков и оптимизации ландшафта бизнес-аналитики. Кроме того, были снижены требования к квалификации разработчиков, благодаря чему экономия фонда оплаты труда при найме новых сотрудников составила около 20%. Благодаря тому, что специалисты при переходе на новую платформу заново переписали бизнес-логику хранилища данных и отказались от необоснованной кастомизации, скорость ежедневного обновления данных в хранилище увеличилась на 15%.

Перечисляя важнейшие уроки проекта миграции, Уланов отметил важность обучения сотрудников и формирования культуры работы с данными: «Если пользователи по-прежнему тянутся к Excel, значит, с ними недостаточно поработали. Нужно объяснять преимущества новых аналитических инструментов и добиваться того, чтобы люди поверили в их полезность и эффективность. И конечно, надо прививать сотрудникам культуру работы с данными».

В компании «ЦЕМРОС» (ранее «Евроцемент Груп») сейчас заканчивается проект перехода с прежней системы управления мастер-данными (MDM) на новую — его планируется завершить к апрелю. Как рассказали Илья Залозных, начальник отдела НСИ департамента информационно-цифровых технологий и архитектуры компании «ЦЕМРОС», и Елена Подгайная, руководитель проектов компании SOFROS, прежде в холдинге использовали решение «Парус» в качестве единой ERP-системы и разработанную своими руками систему MDM. К моменту начала проекта назрела необходимость существенно расширить ее функционал, но стоимость доработки была слишком велика. Кроме того, много сложностей возникало из-за того, что данные справочника материально-технических ресурсов были нечетко классифицированы, неточны или неполны, причем настолько, что однозначно идентифицировать многие позиции справочника было невозможно. Наконец, записи в справочниках нередко дублировались, что затрудняло слаженное функционирование информационных систем и подразделений компании. Если учесть, что число позиций в справочниках НСИ достигало 500 тыс., стало очевидно, что без перехода на новую MDM-систему накопившиеся проблемы решить не удастся.

Было решено переходить на новую систему на базе продукта «1С:MDM». Для ее интеграции с системами «Парус» и «1С:CRM» внедрили интеграционную шину DATAREON ESB.

В настоящее время компания находится на этапе перехода от прежней MDM-системы к новой: часть дочерних предприятий уже работают на базе новой системы, тогда как другая часть — пока на основе прежней. Как пояснил Залозных, такой подход был принят, чтобы снизить уровень стресса у сотрудников.

Благодаря внедрению новой MDM-системы и нормализации базы НСИ, существенно уменьшились затраты времени на поиск и анализ позиций в справочнике, сократились сроки выполнения конкурсных процедур на торговых площадках, ускорилась обработка заявок по справочникам. А за счет выявления и устранения дублей появилась возможность в перспективе сэкономить более 40 млн рублей благодаря более четкой идентификации остатков на складах. Кроме того, удалось провести инвентаризацию позиций МТР с привязкой технической документации. В результате оптимизации и усовершенствования бизнес-процессов по ведению справочников существенно повысилась продуктивность работы службы НСИ.

Рекомендации на основе лучших практик

Как привлечь внимание бизнеса к повышению качества данных? Для этого надо понять, что качество данных дает бизнесу, считает Андрей Трянин, начальник управления методологии и контроля работы с данными компании X5 Retail Group. Основываясь на этой идее, он и его коллеги решили разделить понятия технического качества данных и их бизнес-качества.

Андрей Трянин
Андрей Трянин: «Зачастую бизнес пытается решить свои проблемы на уровне процессов и людей, но не обращает внимания на слой данных»

«Одно дело — решение чисто технических проблем, таких, например, как обеспечение своевременного обновления информации в витринах данных. И другое — решение бизнес-проблем, которое возможно на основе анализа качественных данных, — поясняет Трянин. — Например, почему не продается товар, который есть и в остатках на складах, и в ассортименте? Бизнес не заявит о том, что данные о товарах нужно отслеживать и как-то анализировать. Зачастую бизнес вообще не ассоциирует подобные проблемы с данными, поэтому пытается решить их на уровне процессов, людей, но не обращает внимания на слой данных».

Предметно заниматься бизнес-качеством данных в X5 Retail Group начали с декабря. Проведенная работа уже дала вполне заметный экономический эффект.

«Мы подтвердили гипотезу, и эффект от внедрения изменений оценивается в 'скромные' 50 млн руб. — отмечает Трянин. — Для компании это немного, но для моей команды это сумма средств на два-три года».

Подход к управлению качеством данных, основанный на соглашениях SLA, описал Евгений Виноградов, директор департамента аналитических решений компании YooMoney. Он и его коллеги выяснили, на какие проблемы с качеством данных чаще всего жалуются пользователи. Как оказалось, замечания в первую очередь касались недоступности данных, их неактуальности или некорректности. У дата-инженеров обнаружились схожие претензии, но, кроме того, у них были и нарекания к качеству исходных данных.

«Решением проблем с качеством данных может стать фиксация в документе SLA требований к данным с указанием приемлемых диапазонов показателей», — считает Виноградов.

С его точки зрения, в SLA для аналитических систем наиболее важными показателями являются полнота данных и их точность. Также следует контролировать доступность данных для пользователей и соблюдение четких сроков завершения обработки информации за предыдущие периоды. Кроме того, полезно отслеживать длительность инцидентов с данными и их максимальное количество за месяц. Что касается вопроса о том, стоит ли отражать в SLA работоспособность источников данных, Виноградов и его коллеги пришли к выводу, что исключить из SLA можно только параметры работоспособности второстепенных данных. Ответственность за важные источники аналитикам все-таки приходится брать на себя. 

Евгений Виноградов
Евгений Виноградов: «Решением проблем с качеством данных может стать формирование документа SLA»

Время, к которому должно завершаться обновление данных за предыдущий день, допустимое количество инцидентов за месяц, сроки устранения инцидентов, а также допустимое количество плановых работ и время восстановления с резервной копии в случае повреждения основной базы данных — вот те параметры, которые сегодня являются ключевыми метриками контроля доступности аналитических систем в YooMoney.

«Дело осталось за малым — добиться того, чтобы зафиксированные в SLA договоренности соблюдались», — добавляет Виноградов.

Свой подход к обеспечению качества данных нашли в «М.Видео-Эльдорадо». Как рассказал Алексей Точилов, руководитель продукта Data Governance, в компании в силу исторических причин развиваются два хранилища данных — корпоративное и аналитическое. Они подчиняются разным департаментам, выстроены на базе разных технологических стеков, их сопровождают и поддерживают разные команды. До недавнего времени требования бизнес-заказчиков к данным в разных хранилищах формировались различным образом и проверки качества данных были реализованы по-разному. Неудивительно, что в некоторых случаях возникали расхождения в данных. Немало сложностей возникало и тогда, когда приходилось переносить отдельные активы данных из одного хранилища в другое: могли появляться дополнительные требования, обнаружить которые без выстроенной процедуры их отслеживания было проблематично.

Выход из ситуации был найден путем унификации процессов управления качеством данных. В частности, специалисты решили стандартизировать управление требованиями к данным, согласовать методологии проверок качества данных, обеспечить своевременное реагирование на инциденты с данными и их устранение.

За основу был взят каталог данных, а точнее — хранящиеся в нем метаданные и глоссарий, который содержит не только термины и определения данных, но и информацию об их семантике и происхождении (что особенно важно для поиска точек отказа при анализе инцидентов с данными). Управление качеством данных было решено реализовать на основе каталога данных: именно в нем теперь хранятся типы проверок качества, которые необходимо применить в отношении того или иного актива данных. Типы проверок, включающие описания их методологии в терминах бизнеса и описания алгоритмов, копируются в каталог из системы качества данных (она реализована на базе собственной разработки).

Теперь в каталоге данных фиксируются требования, касающиеся отдельных активов данных, вместе со ссылками на типы проверок, которые следует применить. Эти требования копируются в систему качества данных, и встроенный в нее планировщик заданий систематически запускает проверки согласно составленному расписанию. Их результаты сохраняются в системе качества данных, при этом каталог данных предоставляет возможность просмотра таких результатов. Таким образом, каталог данных выступает в роли единого окна для контроля данных, которое доступно всем, кто использует или поддерживает активы данных.

Нередко проблемы с качеством данных возникают из-за того, что не удается снизить их сложность. По словам Федора Медведева, директора департамента компании Naumen, отвечающего за цифровые сервисы и решения в образовании, помочь справиться с этой проблемой могут системы корпоративного поиска. В частности, поисковая система Naumen Enterprise Search, обладающая встроенными механизмами машинного обучения и средствами обработки запросов на естественном языке (Natural Language Processing, NLP), интегрирует разнородные источники. Система поиска использует единое окно доступа к данным, причем не только к внутренним, но и к внешним.

Внедренная в компании «Газпром Нефть» поисковая система Naumen сегодня охватывает около 50 тыс. пользователей, 50 источников данных и 30 млн документов, обрабатывая около 2,5 тыс. запросов ежедневно. В компании «Мосэнергосбыт» на основе такого же продукта выстроен автоматический мониторинг законодательства в области электроэнергетики: система опрашивает источники (внешние сайты) и ищет информацию о подготовке новых изменений в документах регуляторов. Кроме того, система помогает анализировать найденные данные, отслеживать упомянутые в документах сроки и пр. Что важно, она обеспечивает обсуждение найденных документов внутри организации (задействованы более 50 подразделений) и сведение различных позиций к единому мнению.

Нина Адамова, руководитель направления «Умный город» компании «МегаФон», считает, что вопрос доверия к предоставляемым руководителям данным сегодня является очень важным. Чтобы снизить информационную нагрузку, «Мегафон» создает для топ-менеджеров различных организаций персональные рабочие места — информационные панели, на которых визуализируются не более чем по шесть крупных диаграмм, отражающих актуальные данные по наиболее насущным вопросам, тогда как прочие сведения отображаются в свернутом виде — при желании их можно развернуть и изучить более подробно. Данные для таких систем могут извлекаться из десятков, а иногда и из сотен различных источников — как внутренних, имеющихся в головном офисе или дочерних организациях, так и внешних. К сожалению, раскрывать детали обеспечения качества данных для систем руководителей «Мегафон» пока не готов.

Теги: Управление данными Качество данных Цифровая трансформация Цифровая культура

На ту же тему: