«БАРС Груп»: self-service ML «из коробки» | Вестник цифровой трансформации

Александр Кварацхелия, ведущий архитектор BI-системы Analytic Workspace компании «БАРС Груп», – об одном из первых проектов – прогнозировании выручки и количества чеков, реализованном в аптечной сети «Губернские аптеки».

Для демократизации средств машинного обучения (ML) важным шагом должно стать создание self-service инструментов, которые позволяют провести всю работу силами одного аналитика. В «БАРС Груп» создали в своем BI-решении Analytic Workspace готовые автоматические блоки для выстраивания предиктивной аналитики на базе машинного обучения. Об одном из первых проектов – прогнозировании выручки и количества чеков, реализованном в аптечной сети «Губернские аптеки», – рассказывает Александр Кварацхелия, ведущий архитектор BI-системы Analytic Workspace компании «БАРС Груп» и номинант на премию Data Award.

- Какая проблема стояла перед «Губернскими аптеками»?

«Губернские аптеки» — это крупная государственная аптечная сеть, имеющая более 400 филиалов на территории Красноярского края, Республики Тыва и Хакассии. Перед ней ежегодно вставала задача прогнозирования розничной выручки – от его результатов зависит ряд других бизнес-процессов на предприятии. Например, качество прогноза розничной выручки влияет на будущую наценку, товарооборот, KPI для структурных подразделений, формирование бюджета, мотивацию фармацевтов и т.д.

Ранее прогноз осуществлялся в ручном режиме экспертным путем и занимал не менее одного месяца напряженной работы всего аналитического отдела компании. При этом точность прогноза была невысокой и требовала ежемесячной корректировки бюджета в течение года. Это потребовало внедрения современных инструментов для решения задачи прогнозирования выручки и количества чеков по аптекам, аптечным пунктам и ветеринарным аптекам помесячно, с детализацией для каждого структурного подразделения.

- Какой подход вы предложили?

Предиктивная аналитика как возможность заглянуть в будущее открывает перед бизнесом массу перспектив – от прогнозирования и оптимизации процессов до выявления паттернов и предотвращения проблем. Однако до сих пор предиктивная аналитика являлась серьезным технологическим вызовом для BI-систем: внедрение машинного обучения требовало коллективной работы data-инженеров, DevOps-специалистов, системных администраторов и BI-разработчиков самой высокой квалификации.

Мы решили шагнуть дальше и создать готовые автоматические блоки для self-service ML-прогнозирования, которые позволяют провести всю работу силами одного аналитика. Analytic Workspace делает машинное обучение доступным для прогнозирования широким массам пользователей BI.

- В чем его особенность?

Реализация self-service ML-прогнозирования в нашем решении стала возможной благодаря новому подходу к построению ETL-процессов, который основан на создании автоматических программных ETL-блоков, или «блоков-декораторов». Такие блоки представляют собой управляющие скрипты, каждый из которых производит определенную операцию с данными таблицы.

Важно, что библиотека декораторов доступна «из коробки», и пользователь может самостоятельно привести свои данные к необходимому виду без дополнительного программирования. Таким образом, из небольшого количества простых ETL-блоков можно конструировать большие логические модели с неограниченным количеством уровней вложенности для решения самых сложных аналитических задач.

Среди набора ETL-блоков имеются блоки ML-прогнозирования. Например, блок «ML-модель в ручном режиме» выполняет применение модели машинного обучения для обогащения вложенного объекта. «Прогнозирование временного ряда» позволяет построить прогноз вперед или назад на основании исторических данных. «Классификация/регрессия с ML-моделью» выполняет предсказание (классификацию, регрессию) для вложенной в него таблицы на основе ML-модели из внутреннего реестра моделей.

- Какие этапы включал в себя проект?

За основу прогнозной модели для «Губернских аптек» были взяты те ключевые факторы, которые должны определять значения розничной выручки с точки зрения бизнеса. Это исторически сложившаяся динамика выручки и чеков c 2019-го по 2023 год, льготный рецептурный сегмент, вид аптечного пункта и его структура продаж, конкурентное окружение в населенных пунктах присутствия, площадь торгового зала.

Для создания прогнозной модели был выбран ансамбль базовых моделей машинного обучения, каждая из которых имеет свои сильные стороны: нейронная сеть, градиентный бустинг и модель временного ряда. Обучение ансамблирующей прогнозной модели базируется на совокупности выводов базовых моделей.

- Как фактически выглядит процесс создания модели для пользователя?

Процесс работы по созданию модели ML-прогнозирования проходит в три этапа. После подключения источников данных и предварительной ETL-обработки данных во внутреннем хранилище системы, реализованном на базе Clickhouse, формируется датасет (аналитическая витрина данных) для обучения. Затем этот датасет передается на интегрированный интерфейс Jupiter Notebook, где происходит обучение прогнозной модели. Наконец, обученная ML-модель автоматически попадает в реестр моделей системы, после чего она применяется к промышленному набору данных для прогнозирования.

- Что уже успели сделать в рамках реализации проекта?

На первом этапе работы была произведена оценка качества данных, которые используются для обучения ML-модели. Точность прогнозов может быть весьма чувствительной к наличию пропущенных значений за некоторые периоды. В нашем случае такие пропуски были вызваны, например, периодическим закрытием аптек, расположенных на территории роддомов или больниц, в связи с закрытием этих медучреждений на плановую мойку. Восстановление данных было проведено с помощью автоматического ETL-блока «Функция» с использованием библиотеки Prophet. Восстановленных таким образом данных было достаточно для обучения базовой модели временного ряда.

Подготовка данных для обучения моделей «градиентный бустинг» и «нейронная сеть» проводилось путем построения матрицы признаков множественной регрессии также с помощью ETL-блоков внутри Analytic Workspace.

Подготовленные таким образом данные были переданы в интерфейс Jupiter Notebook, где базовые модели обучились по отдельности и были объединены ансамблирующей моделью для повышения точности прогноза, поскольку объем данных был недостаточен для использования какой-либо одной базовой ML-модели.

Затем обученные модели были возвращены в интерфейс Analytic Workspace и применены к данным «Губернских аптек» для построения логической модели данных, включающей прогноз на 2024 год, и последующей визуализации.

- Что было сложнее всего?

При создании self-service решений основную сложность представляет соблюдение баланса между простотой использования инструмента и сохранением достаточной функциональности. Мы решили эту проблему следующим образом. В Analytic Workspace представлен набор автоматических блоков ML-прогнозирования «из коробки», и этот список от релиза к релизу расширяется. С помощью этих блоков можно (даже на бесплатной демоверсии) осуществлять распространенные сценарии прогнозирования.

Однако для сложных случаев мы оставляем возможность создания и обучения модели машинного обучения в интегрированном Jupiter-подобном интерфейсе, который в разных модификациях используют дата-сайентисты и аналитики-специалисты для работы с ML-моделями. Так, для «Губернских аптек» потребовалось применение трех различных моделей машинного обучения и ансамблирующей модели, поскольку объем данных был недостаточным для точного прогноза с помощью какой-либо одной модели.

- Каковы первые результаты?

Уже сейчас получены результаты первого месяца работы компании, которые позволяют оценить точность ML-прогнозирования: расхождение план-факт составляет менее 10% (точность 93,6%), что является отличным результатом.

- Эффект каких масштабов можно ожидать в дальнейшем? Как точность прогнозирования может отразиться на бизнесе?

Что касается конкретного бизнеса, то безусловно очевиден эффект освобождения трудовых ресурсов аналитического отдела от ежегодной рутинной задачи ручного прогнозирования выручки и ежемесячных корректировок бюджета ввиду его недостаточной точности. Будучи уверенным в точности прогнозирования выручки, руководство компании может более эффективно перераспределять трудовые и финансовые ресурсы, принимать взвешенные решения, направленные на развитие компании,

Мы же со своей стороны имеем в планах расширение и развитие функциональности ML-прогнозирования в Analytic Workspace, пополняя библиотеку блоков прогнозирования и моделей машинного обучения, которые могут быть переиспользованы в дальнейшем.

- В чем заключается роль этого проекта?

Задача автоматизации прогнозирования в аптечной сети была успешно решена. Теперь прогнозирование выручки происходит в реальном времени, не требует ручного сбора данных и вообще участия человека.

Помимо этого, прогноз на 2024 год предупредил о некоторых критических точках снижения выручки при существующей структуре аптечной сети, что позволило управляющим заранее принять решения для предотвращения возможных негативных последствий.