«Управление данными — 2022»: Лифт в космос, «костылизация» и другие лайфхаки | Вестник цифровой трансформации

Организационная перестройка, миграция на отечественные решения и проблемы качества данных — эти темы объединили существенную часть кейсов, рассмотренных на конференции «Управление данными — 2022».

Опытом преодоления кризиса поделились представители ряда компаний: «М.Видео-Эльдорадо», «Лента», «Интер РАО-Онлайн», «Тинькофф» и «К-Скай». (Еще одной актуальной теме — самообслуживанию — посвящен отдельный материал, см. статью «'Управление данными — 2022': На прямой связи с данными»).

Перестройка трансформации

Кризис застал «М.Видео-Эльдорадо» в разгар погружения в цифровую трансформацию. В компании шел процесс ликвидации границ между бизнесом и ИТ. Все бизнес-подразделения имели собственные бюджеты на разработку. Директора по продуктам и технические директора решали задачи в каждом бизнес-домене, а разработчики создавали инструменты, чтобы автоматизировать именно бизнес-процессы подразделения. Дата-офис поддерживал своими компетенциями разработку продуктов бизнесом и развивал платформу данных, методологию Data Governance и инструментарий машинного обучения. При этом cтруктура дата-офиса была очень прозрачной с точки зрения бюджетирования — было легко оценить стоимость каждого продукта, рассказал Данила Наумов, директор офиса больших данных «М.Видео-Эльдорадо».

Данила Наумов: «Как CDO я упразднил платформу данных как выделенный продукт, а ее компоненты и бюджет распределил по центрам компетенции»

Новая реальность привела к резкому сокращению бюджетов, и недостатки дорогой матричной структуры продакт-менеджмента стали критичными. Стало не хватать специалистов для создания полноценного конвейера данных по каждому продукту в каждом домене: было трудно полностью закрыть весь список задач.

Поэтому уже летом десять бизнес-доменов свернули в три, что позволило выстроить внутри каждого из них отдельные конвейеры данных. Помимо них, существовал и централизованный — он мог принимать задачи подразделений, не имеющих собственного конвейера.

Были предприняты и другие важные стратегические шаги.

«Как CDO я упразднил платформу данных как выделенный продукт, а ее компоненты и бюджет распределил по центрам компетенции так, чтобы у команд были средства на решение задач как сервисов», — рассказал Наумов. Распределенный бюджет стали использовать по сервисной модели: кто угодно может попросить решить его задачу, но сделано это будет в рамках общих приоритетов. Установление очередности происходит в соответствии со стратегией бизнес-домена, что очень понравилось бизнесу. От момента введения задачи в систему до внедрения результата сейчас проходит 15 рабочих дней, и, по словам Наумова, это довольно хороший для отрасли показатель.

Таким образом реализуется урезанный вариант цифровой трансформации: в нынешних условиях она стала чересчур дорогой.

Благодаря и вопреки

В компании «Интер РАО-Онлайн» большинство проектов по управлению данными реализовано «благодаря и вопреки»: благодаря поддержке очень высокого уровня руководства и вопреки всей бюрократической машине. «Роль CDO, в которой я живу, — это роль лифта в космос, — объяснил Владимир Анисимов, директор по данным «Интер РАО-Онлайн». — Одни читают DAMA DMBOK2, другие стоят «у сохи», и надо подружить эти две половины мира, чтобы что-то двигалось вперед». Для этой цели в компании создали службу заказчика, построенную по методологии Agile и стоящую особняком от ИТ- и бизнес-отделов.

Владимир Анисимов: «Роль CDO, в которой я живу, — это роль лифта в космос»

Еще один лайфхак энергетической компании — не бояться использовать обходные приемы решения ИТ-проблем. ««Костылизация» — часть нашей жизни, такой подход позволяет бежать быстрее, — констатировал Анисимов. — Большинство наших пилотных проектов, а затем и продуктов стоят на «костылях», которые мы вытаскиваем на протяжении 3–5 лет, и эти «костыли» достойно себя ведут».

Любимый «костыль» Анисимова — программные роботы. «Я предпочитаю ставить роботов там, где нет и не будет в ближайшее время интеграции по API, — отметил он. — Такой 'костыль' отлично выполняет свою задачу, на нем можно шагать долго и уверенно».

Гордость Анисимова — система автоматизированного взыскания дебиторской задолженности, интегрированная с набором внутренних сервисов компании и содержащая алгоритмы машинного обучения. Она строилась на зарубежных продуктах и сейчас мигрирует на отечественные решения — в частности, на low-code-платформу Loginom. Хранилище данных уже «съехало» с Oracle. Теперь и аналитику, которую до сих пор развивали на Oracle Analytic Server, переведут на open source и отечественные продукты. «Переход идет тяжело, — признался Анисимов, — так как ни одного BI-решения с полноценным самообслуживанием на внутреннем рынке пока не нашли».

Работа на результат

Что делать, чтобы работа дата-команд приносила пользу организации? Руководитель Data Science компании «Лента» Ирина Голощапова заострила внимание на бизнес-аспектах вывода моделей в продуктивную эксплуатацию. Это целая история по управлению изменениями, считает она. Недостаточно построить модель, способную повысить эффективность бизнеса. Нужно сделать так, чтобы люди эту модель использовали, включив ее в бизнес-процесс. «А для этого важно думать об интерпретируемости решения для конечного пользователя, — подчеркнула Голощапова. — Чтобы доверять результатам работы модели, он должен понимать, как она к нему пришла, как может меняться ее поведение в реальных условиях, как полученный результат можно использовать и почему». Для внедрения продвинутой аналитики в «Ленте» реализуют фреймворк Reliable ML, который позволяет учитывать как технические особенности машинного обучения, так и процессы работы дата-офиса и его взаимодействия с бизнесом для достижения максимального финансового эффекта.

По мнению Анисимова, оценить эффект удачного внедрения дата-проектов невозможно: все понимают, что «штука классная», но никто не может посчитать результат в рублях. Как только появляется первый прототип, рабочие процессы меняются настолько сильно, что сравнивать текущий и прошлогодний периоды просто бессмысленно. «Когда в момент внедрения менялись бизнес-процессы, мы, как служба квалифицированного заказчика, подменяли собой бизнес-подразделения: они слишком заняты операционной деятельностью, и объяснить им, что не надо таскать круглое и катать квадратное, невозможно. Старайтесь договариваться о качественной оценке эффектов», — посоветовал Анисимов.

Детективная история

Как в колоссальных объемах доступной для анализа информации найти именно то, что нужно для ответа на текущий вопрос? Огромное количество рабочих пространств, содержащих небольшие разрозненные кусочки контекста, бесконтрольно ведущаяся документация, качество которой остается на совести ее составителя, — вот проблемы, которые знакомы многим крупным организациям. Проведенные пару лет назад опросы сотрудников «Тинькофф» показали, что хранилище в текущем виде «непознаваемо для пользователей», а поиск метаданных — «искусство, которому нельзя научить».

«У вас могут быть отличные метаданные, но если у пользователя нет инструмента для доступа к ним, то, к сожалению, они бесполезны», — заметил Дмитрий Пичугин, руководитель группы управления данными «Тинькофф».

По примеру таких авторитетов, как Google, Linkedin и Uber, в «Тинькофф» решили бороться с неполнотой документации и разрозненностью информации с помощью каталога данных, который должен стать «единой точкой правды» для всей экосистемы данных и удобным инструментом поиска нужных сведений, но главное — средством анализа зависимостей при движении данных от источника к точкам их применения и обработки, что крайне необходимо для отслеживания происхождения ошибок.

Экосистема ИТ-решений «Тинькофф», по большей части самописных, — очень сложная, поэтому к гибкости модели метаданных предъявляются довольно высокие требования и обязательной опцией при выборе каталога должен быть Data Lineage. «У нас бывает анализ зависимостей на тысячу нод, а иногда и больше, — поделился Пичугин. — Если не дать аналитикам удобный инструмент, то, скорее всего, через некоторое время они уволятся, не выдержав этой пытки». Так как ни одно из представленных на рынке решений всем критериям компании не удовлетворяло, пришлось строить каталог самим. В его основу положили идею комфорта пользователей: искать данные не должно быть сложнее, чем товары в интернет-магазине.

Так появился Data Detective — каталог для неквалифицированных пользователей, способный, как утверждают его создатели, вписаться в любой ИТ-ландшафт. Несмотря на то, что ранее запущенные решения никуда не делись, 85% пользователей сегодня предпочитают новый каталог, и более половины из них — бизнес-пользователи. В дальнейшем в «Тинькофф» намерены распространять Data Detective за пределами компании. Помимо «полировки» интерфейса, в ближайшие планы разработчиков входит внедрение инструментов для удобного отображения бизнес-глоссария любой структуры.

Медицинские данные, заслуживающие доверия

Использование электронных медицинских карт (ЭМК) в качестве источника данных для анализа сопряжено с такими объективными сложностями, как отсутствие единых форматов хранения записей и использование неструктурированного текста. Но и это еще не все. Половина ЭМК (51%) вообще не содержат медицинских данных — это просто записи в базе с ФИО и датами рождения пациентов. А оставшиеся 49% зачастую содержат фрагментарные сведения, ценность которых для анализа сомнительна. Кроме того, длительность наблюдения пациентов в большинстве ЭМК не превышает трех лет, то есть вероятность наличия в них ценных для прогностического искусственного интеллекта находок очень низка.

Александр Гусев: «Мы научились детектировать аномалии не благодаря математике, а благодаря пониманию, где они будут возникать»

Кроме того, есть и важный субъективный фактор, который серьезно тормозит развитие интеллектуальных продуктов в медицине, — отсутствие доверия к сделанным искусственным интеллектом выводам, обусловленное недоверием к качеству данных, на основе которых делаются эти выводы. «90% времени наших исследований связано с данными. Именно работа с данными определяет провал или успех», — считает Александр Гусев, сооснователь компании «К-Скай», которая занимается предиктивной медицинской аналитикой на основе технологий искусственного интеллекта. Чтобы сломать лед недоверия к выводам на основе анализа данных медкарт, в «К-Скай» разложили все накопленные данные по типам, видам и источникам и оценили с точки зрения рисков возникновения ошибок. Выяснилось, что есть существенный сегмент данных, где риск недостоверности составляет менее 1%, — это протоколы инструментальной и лабораторной диагностики, рецепты. Более половины всех данных ЭМК, включая заполненные по шаблону протоколы врачебного осмотра и автоматически сгенерированные выписные эпикризы, попали в зону умеренного риска с вероятностью возникновения ошибки 1–5%. И лишь 5% данных — заключительные диагнозы, карты выбывших из стационара, талоны амбулаторного приема — находятся в зоне высокого риска с вероятностью ошибки более 5%. Таким образом, руководители, принимающие решения об использовании врачами систем-помощников, стали четко понимать, каким данным можно доверять, а какие ставить под сомнение.

Затем в «К-Скай» стали изучать причины возникновения аномалий в сырых данных, паттерны поведения врачей и даже оценивать влияние качества интерфейса ЭМК на полноту данных. «В итоге мы научились детектировать аномалии не благодаря математике, а благодаря пониманию, где они будут возникать», — сообщил Гусев.