Data Mesh в «Леруа Мерлен»: DIY в работе с данными | Вестник цифровой трансформации

Дмитрий Шостко, CDO «Леруа Мерлен», — о том, как в компании пришли к подходу Data Mesh, о развитии корпоративной культуры и достигнутых результатах.

Подход «сделай сам» (Do It Yourself, DIY) компания «Леруа Мерлен» не только пропагандирует среди клиентов, но и распространяет на себя. Процесс работы с данными в ней полностью децентрализован: реализована концепция Data Mesh, в рамках которой подразделения (домены) самостоятельно отвечают за данные и создают продукты на их основе. В результате в подразделениях начался процесс автономного развития data-driven-культуры. За два года команда data-акселератора («десанта», который помогает создавать продукты на основе данных) создала более 10 продуктов, пять из которых оказались успешными и принесли несколько миллиардов рублей. За этот же период все подразделения компании самостоятельно запустили более 20 продуктов, оценочный эффект от внедрения которых в разы превышает эффект от действий data-акселератора.

Дмитрий Шостко, CDO «Леруа Мерлен» и номинант на премию CDO Award 2021, сравнивает Data Mesh с кафетерием, противопоставляя его «ресторану» в виде централизованного data-офиса. Дмитрий рассказал о том, как в компании пришли к подходу Data Mesh, о развитии корпоративной культуры и достигнутых результатах.

— Как в «Леруа Мерлен» зарождался data-driven-подход, откуда растет интерес к работе с данными?

У нас, как и в любой индустрии, есть процессы, изначально основанные на данных. В ретейле это логистика и поиск точек для открытия новых магазинов. В обоих процессах алгоритмы машинного обучения применялись еще 10 лет назад — просто никто не знал такого термина. Но в определенный момент приходит понимание того, что существует масса процессов, где данные также можно использовать по-другому — не так, как раньше.

Несколько лет назад у «Леруа Мерлен» был период экспансии в России: открывалось около 20 магазинов в год. Об оптимизации процессов в такой ситуации думать некогда — фаза роста бизнеса подразумевает сосредоточение усилий совсем в другом направлении.

В 2018 году руководство компании пришло к выводу о необходимости выстраивания баланса между расширением и эффективностью процессов. С этого момента анализ данных стал одним из ключевых направлений и вышел на первый план. Инвестиции в эту область включают две важные составляющие: долгосрочные инвестиции в платформу и реализацию отдельных «быстрых побед», позволяющих поддерживать интерес компании к проекту.

Очевидно, что выстраивание процессов работы с данными открывает новые горизонты. Например, на текущем этапе развития мы поменяли стратегию — отошли от продажи исключительно товаров, чтобы трансформироваться в компанию-платформу (или экосистему) по благоустройству дома. В этом случае речь идет о сопровождении человека с момента возникновения у него идеи обустройства дома до полного завершения ремонта и в дальнейшем выполнения экстренных или плановых действий (вплоть до замены лампочек). К такому подходу сейчас стремятся абсолютно все.

Это стандартная эволюция бизнеса: сначала развиваем базовую бизнес-модель, затем оптимизируем, далее строим платформенные решения. Сейчас мы находимся на втором этапе и постепенно исследуем возможности использования данных в рамках платформы по обустройству дома.

— Какое место в иерархии «Леруа Мерлен» занимает CDO ?

У «Леруа Мерлен» нет «лишних» иерархических звеньев, структура выстроена довольно плоско. CDO входит в управляющий менеджмент компании (в «Леруа Мерлен» он называется «группа лидеров»), и это очень важно. Если требуются изменения, то их следует проводить и «снизу», и «сверху», причем изменения сверху — это всегда изменение мышления. Если у руководителя нет необходимого уровня влияния, то возможность воздействовать на работу большого числа ключевых специалистов уменьшается.

Эта роль — «плавающая». В какой-то момент я очень плотно работал с CIO, затем — с заместителем генерального директора, курировавшим финансы и поиск новых точек открытия магазинов, сейчас — с заместителем генерального директора, отвечающим за цифровые сервисы. Поэтому трудно сказать, кто мой шеф, — на эту роль «претендуют» около 6–7 человек, как в России, так и в штаб-квартире. Такова наша специфика, хотя для обычной российской компании это покажется абсурдным. Но я к своим руководителям отношусь скорее как к компаньонам — людям, с которыми мы взаимно развиваемся. С их помощью реализация проектов, связанных с данными, происходит быстрее — если бы я занимался этим в одиночку, эффективность моей работы была бы ниже.

— Компания начала активную работу с данными довольно поздно…

Конечно, пионерами мы не являемся. Активные действия начались в начале 2019 года, когда я присоединился к компании. Разумеется, начинал не на пустом месте: и в России, и на глобальном уровне существовали и озеро Hadoop, и хранилище Teradata. Но тогда в компании не было стратегического видения пути развития платформы данных, не существовало целей, к которым можно стремиться.

Однако технологии за те 6–7 лет, на которые нас опережают лидеры в использовании данных, существенно изменились. Многие компании, сделавшие ставки на определенные технологические решения, сейчас вынуждены задуматься. Например, многих очаровал Hadoop, начинавшийся примерно в 2008 году. Сегодня понятна вся его экосистема: что работает хорошо, а что — не очень. Компании, начинающие лишь сейчас, имеют определенное преимущество: и более развитые технологии, и серьезный опыт, накопившийся на рынке. В случае правильных действий они могут найти короткий путь и «срезать круг», сэкономив несколько лет.

— Какие были выбраны подходы для этого?

На уровне группы было много разных решений, по-своему хороших. Мы попытались посмотреть на них новым взглядом, оценить их с учетом накопившегося опыта, и определили метапринципы, на базе которых создается платформа. Технологический стек не так уж и важен, гораздо важнее правила, по которым ведется работа.

Главным требованием стала горизонтальная масштабируемость платформы. Значит, надо ориентироваться на работу в облаке (быть cloud ready), проектировать платформу с учетом этого (быть cloud native) и даже предусмотреть возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic) — другого подхода для нормального масштабирования нет. Еще один принцип — возможность самостоятельной разработки, а значит, нам нужен open source. Проприетарные продукты сложные и закрытые, там не все доступно для самостоятельных работ. И все новые технологические веяния сначала появляются в открытых решениях, а в проприетарных продуктах они реализуются с запаздыванием.

Кроме того, нам следует инвестировать во внутреннюю разработку, а не во внешнюю. Во-первых, в этом случае проще соблюдать утвержденные принципы. Во-вторых, мы разделяем философию компании — ориентироваться не на «ресторанный бизнес», а на «кафетерий», подразумевающий самообслуживание. Во многих компаниях создается огромное подразделение по анализу данных, обслуживающее всю организацию. Это определенно не наш случай. Мы хотели создать площадку, где каждый может набрать нужные ингредиенты и приготовить из них собственное блюдо. Лучший суп — сваренный для себя, в соответствии со своими потребностями. А мы предоставляем ингредиенты и функционал кухни.

И последнее: все наши продукты должны быть стабильными и легкими в использовании. То есть важно их восприятие бизнес-заказчиком. Если продукт важен и нужен компании, но не нравится пользователям, мы что-то делаем не так. Кроме того, мы не строим платформу несколько лет, чтобы потом предоставить заказчикам сразу все ее возможности. Каждый месяц, каждый квартал мы вводим новые функции, элементы, которые сразу становятся доступны всем пользователям. Непрерывная обратная связь — самое важное для нас.

— Какие ИТ-платформы применяются и почему именно они?

Сформулировав метапринципы, мы стали искать технологии, которые обеспечат их реализацию. Во-первых, необходима крупная аналитическая площадка — классическое хранилище данных. Его мы начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Во-вторых, данные, которые туда загружаются, должны быть доступны в реальном времени. Так у нас появилось решение Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.

Появление остальных продуктов также связано с нашими потребностями. Например, нам был нужен процессинг данных, но мы не стали использовать для этого Hadoop — это довольно сложный стек, для его поддержания нужна большая команда и не всё в нем работает идеально. Однако есть распределенные файловые системы, аналогичные HDFS, — интерфейсы S3, которые стабильны, хорошо работают со Spark и в полной мере подходят для data science.

— Как появилась идея data-акселератора?

Как я сказал, мы вынуждены искать баланс между долгосрочными, малоинтересными для бизнеса работами по построению платформы данных и яркими краткосрочными проектами, приносящими прибыль. Очевидно, нужно заниматься продуктами на основе данных, приносящими прибыль внутри компании. Внедрение нескольких удачных проектов может окупить инвестиции и в платформенную часть, и в продуктовую, что попутно позволит добиться расположения бизнеса. Однако сам data-продукт — часть довольно сложного комплекса, куда также входят клиентский опыт, сервисы, технологии, бизнес-процессы. Data-продукт — еще одно звено в этой цепочке, добавление которого делает конечный продукт более качественным или даже кардинально иным.

Эти быстрые бизнес-ориентированные проекты реализуются с помощью data-акселератора. С самого начала мы заявили, что для создания data-продукта нужна не централизованная команда, которая будет его разрабатывать и внедрять, а «десант», приходящий «в гости» к подразделениям и реализующий проект вместе с ними. При этом преследуются две цели: помимо достижения экономического эффекта, изменяется мышление и развивается data-культура внутри подразделений. Очень важно не только дать подразделениям технологическую площадку, но и внедрить в них новые компетенции, навыки, мышление.

— Каковы успехи в изменении культуры?

Главным стало то, что созданная полноценная аналитическая площадка, куда поступают данные в режиме реального времени, востребована пользователями и имеет позитивные отклики. Это наши ключевые метрики успеха. За два года увеличилось количество пользователей и возросла популярность наших базовых курсов, помогающих освоить работу с данными. Число активных пользователей сегодня превышает 300 человек. Конечно, сначала подразделения демонстрировали скепсис в отношении платформы и средняя оценка удовлетворенности работой с ней колебалась около 3 по пятибалльной шкале, но сейчас наш рейтинг — 4,8.

— Как вы пришли к подходу Data Mesh?

Когда начинали строить платформу данных, то еще не знали такого термина. Руководствовались здравой логикой, сформулированными метапринципами и пониманием того, что важно дать автономию подразделениям в работе с данными, а не развивать централизованную команду. Децентрализованный подход и в технологиях, и в использовании данных подразумевает хорошую площадку, позволяющую реализовать такую автономию, и практики, предоставляющие возможность специалистам решать свои задачи.

Я анализировал тенденции в ИТ, определяемые разработкой архитектуры фронтенда и бэкенда. В части использования бэкенда весь мир движется от монолитных систем к микросервисам. И аналогично, компании движутся к микрофронтендам, чтобы дать автономию отдельным командам и иметь возможность разрабатывать один большой продукт с участием множества команд. То же самое можно делать и с данными. За данные отвечают их владельцы: каждый домен самостоятельно отгружает данные в платформу, следит за их качеством и описательной частью. И это реально работает.

Лишь потом мы увидели, что на самом деле не придумали ничего нового. Стали активно изучать тему Data Mesh и перенимать чужой опыт. Это позволило избежать некоторых ошибок.

— Почему именно Data Mesh? Какие рассматривались альтернативы?

Сама компания «Леруа Мерлен» по сути децентрализованная. Подход Do It Yourself (DIY) транслируется не только вовне — клиентам компании. Мы сами живем по тем же принципам. Нам было понятно, что вначале придется инвестировать в централизованную команду для создания компетенций, практик и ИТ-площадки, а затем все больше инвестиций потребуется направлять на развитие навыков в других подразделениях.

Например, в компании нет ИТ-департамента как такового. Ее структура управления предполагает, что команды, отвечающие за операции, и команды, создающие продукты и сервисы, работают вместе, образуя домены. И такие домены самостоятельно работают с данными.

— Несмотря на децентрализованность процессов работы с данными, политики — это нечто общее. Как определяются политики работы с данными?

Политики работы с данными — это стандарты, правила, подходы и практики. Если мы делаем то, что удобно пользователям, подходы и практики быстро становятся популярными. Да, на первых порах предложенные правила требуется поддерживать внешними механизмами — для утверждения во всех подразделениях. Мы следуем выбранным правилам, они принимаются коллективно и работают в рамках всей компании. Их довольно много — например, они касаются качества данных, доступности данных в платформе, ответственности за метаданные…

— А как решается вопрос качества данных?

Все компании его решают примерно одинаково, но у нас есть преимущество. Мы, как и все, пишем DQ-тесты, но в случае Data Mesh они действительно эффективны, потому что приближены к операциям и людям, которые эти данные порождают. Всегда можно понять, что пошло не так и почему это происходит, — ведь низкое качество данных часто говорит о некорректных операциях.

— Какие источники данных использовались? И как в целом определяется, что нужно компании?

Используем практически все, до чего можем дотянуться. Если есть данные, они должны быть доступны всем — разумеется, за исключением определенных ограничений. Если в компании появились новые данные, их владелец должен заявить об этом, описать их и отдать в нашу платформу. При подходе Data Mesh это важно.

У нас больше 200 типов источников, но польза от них различна. Правило Парето применимо и здесь. Примерно 90% наших аналитических активностей закрывается 70 источниками.

— В чем заключалась ваша самая большая проблема?

Конечно, это изменение мышления людей, которые много лет работают в классических профессиях. Директора, руководители направлений — люди, выросшие в доцифровом ретейле. Для них новые технологии — не самая простая история. Изменить их взгляды — это и ключевой, и самый непростой момент. Требуются правильные примеры и аналогии, чтобы привлечь их на свою сторону.

— Какие data-продукты были созданы? Приведите несколько примеров.

Хорошим примером является продукт «Светофор». Как известно, в ретейле есть операция приема товара от поставщиков, и она включает проверки. Проверять всё от всех поставщиков экономически невыгодно, это требует огромных ресурсов. Но если изучить историю работы с поставщиками и возникавшие с ними проблемы, то процесс можно оптимизировать и проверять не всех поставщиков и не все товары, а делать выборочные проверки, сокращая затраты. Осуществляя контроль по определенным правилам, которые создаются машиной (проверять лишь одну из нескольких поставок), мы находим до 80–90% брака.

Кроме того, можно выделить работу с комплементарными товарами. Такая продукция есть в любом бизнесе, и обустройство дома не исключение. Во многих случаях товары лучше приобретать вместе: либо один без другого невозможно использовать, либо их совместное применение ускоряет процесс ремонта, либо речь идет о «красоте» – элементах декора. Долгое время компания смотрела на комплементарные товары лишь глазами экспертов, определяя связи между ними. Но когда речь идет о работе с 60 тыс. различных номенклатурных позиций, то число таких связей исчисляется десятками миллионов. Никакая экспертная группа такую работу не осилит, да и человеческий взгляд не гарантирует абсолютной правоты выводов. Гораздо интереснее взглянуть на взаимосвязи глазами клиента, оценив, что и в какой последовательности он изучает на сайте, что подбирает в магазине. Это ценная информация, которая обогащает знания экспертов. И мы видим значительный рост эффективности апсейла и кросс-сейла в рамках маркетинговых активностей.

— Каких финансовых результатов удалось достичь с помощью data-акселераторов и в ходе дальнейшего развития инициатив на уровне всей компании?

Экономический эффект от деятельности нашего «десанта» за два года составил несколько миллиардов рублей. Это результат оптимизации продуктов и бизнес-процессов. На уровне всей компании эффект оценить сложнее, поэтому проводятся лишь приблизительные расчеты. Но уже довольно много сотрудников самостоятельно работают с данными, и, по текущим оценкам, эффект от активности всех подразделений в этой сфере в разы превышает экономический эффект от деятельности data-акселератора.

Надо сказать, что наша цель — показатели, в несколько раз большие. Мы ожидаем в ближайшие пару лет рост финансовых результатов от двух до пяти раз.

— Вероятно, многие компании мечтают запустить процесс автономного развития data-driven-культуры. Что для этого нужно?

Вначале нам самим не верилось в это. В ресторанном бизнесе люди тянутся к хорошему обслуживанию — это очевидно. А если речь идет о самообслуживании, то изначально непонятно, будут ли люди приходить и готовить сами. Оказалось — будут. Более того, зачастую это удобнее, понятнее и прозрачнее, когда домены сами отвечают и за ИТ-системы, и за процессы, и за данные. Они сами инвестируют в необходимые им направления, привлекают необходимые компетенции, контролируют получение результата.

— Какие результаты своей деятельности в компании вы сами считаете ключевыми? Как вы оцениваете свое место и роль в реализуемых проектах?

Я рассматриваю себя как «играющего тренера» в команде по десятиборью. Во многих процессах приходится участвовать не только в теории, но и на практике. Часто требуются и коучинг, и размышления о будущем, и оценка способов реализации, а иногда приходится вместе с командой впрягаться в решение задачи.

— Что дальше? Какими вы видите дальнейшие направления развития проекта?

Работа с данными станет частью любого бизнес-процесса компании. Не будет ничего особенного или тем более зазорного в data science и анализе данных. Подразделения будут потреблять данные в рутинном режиме — это станет базовой гигиеной, которая выработается у всех, это будет нормой, без которой невозможно развиваться. Вопрос лишь в том, как это сделать быстрее остальных и пройти такой путь на максимальной скорости. И мне кажется, подход Data Mesh здесь неплохо работает.

К CDO через data science

Дмитрий Шостко, CDO «Леруа Мерлен» Чуть более 10 лет назад я начал заниматься риск-менеджментом. Тогда термин data science еще не был известен, а машинное обучение было лишь на этапе запуска технологий — прехайп в начале кривой Gartner. Естественно, никаких крупных инвестиций в это направление еще не было, а для решения задач использовались алгоритмы, существовавшие на тот момент, и доступные вычислительные мощности. Например, многие скоринговые модели строились на обычных логистических регрессиях.

Кроме того, не было четкого разделения обязанностей, характерного для нынешних дней. Сейчас индустрия работы с данными становится все сложнее и в ней возникает все больше профессий, появляются разные роли: дата-сайентист, дата-аналитик, дата-инженер, дата-стюард, архитектор. Раньше такого разнообразия не было и приходилось строить все самому: витрины данных, аналитическое хранилище, модели... В какой-то момент я понял, что проблематика в плоскости анализа данных лежит вовсе не в знании алгоритмов, математики и статистики, а прикладные задачи для финансов, телекома и ретейла не так уж и сложны.

Настоящая проблема заключается в данных: 90% времени уходит на то, чтобы понять, какие данные нужны, разобраться с их качеством, собрать витрины и т. п. Я понял, что в этой области мало профессионалов, мало людей, которые приходят туда из data science, возвращаясь к инженерной практике. Я решил, что должен стать полноценным дата-инженером, затем — дата-архитектором, а потом — и СТО. Сейчас выполняю роль CDO.

Этот путь не очень распространенный, но он дает возможность смотреть на многие вещи с другой точки зрения. Потребности «клиентов» — дата-сайентистов и аналитиков — у меня в ДНК. А опыт в риск-менеджменте позволяет оценивать любой проект с точки зрения потенциальной окупаемости и пользы для бизнеса.

— Дмитрий Шостко, CDO «Леруа Мерлен»