На базе облачной платформы Big Data будет идти разработка и промышленная эксплуатация продуктовых ИИ-решений, включая сервисы для управления цепочками поставок, ценообразованием и программами лояльности. Также в экосистеме Big Data Platform будут развернуты лаборатории данных, в рамках которых продуктовые и функциональные команды будут проводить исследования и ad-hoc аналитику.
Ранее ретейлер использовал для аналитики, обучения ML-моделей и поддержки бизнес-процессов одну и ту же базу данных. Высокая нагрузка на систему, которая возникает при работе с аналитическими проектами, негативно влияла на производительность других сервисов. Для запуска полноценной платформы работы с данными и обработки более сложных задач из области Data Science компания искала партнера, который предлагает нужные компоненты как услугу в облаке.
В целях быстрого масштабирования и консолидации всех аналитических направлений на одной платформе «Ашан» решил запустить Big Data Platform в облаке Mail.ru Cloud Solutions. При выборе поставщика компания руководствовалась двумя важными критериями: наличие всех необходимых платформенных компонентов и оптимальное соотношение цены и качества услуг. Кроме того, было необходимо обеспечить соблюдение 152-ФЗ о персональных данных.
«Ашан» запустил пилотный проект, в рамках которого облачная платформа продемонстрировала соответствие требованиям компании, ожиданиям по производительности и скорости развертывания. В ее основу лег сервис Cloud Big Data с Apache Hadoop, на который было перенесено 25 Тбайт «сырых» данных, необходимых для построения моделей ИИ. Построение витрин данных и ETL между различными компонентами платформы было реализовано с помощью компонента Spark. Управляемая база данных ClickHouse используется для хранения «горячих» данных, ad-hoc аналитики и витрин данных для ИИ-решений. В качестве массивно-параллельной системы компания подключила Arenadata DB на основе СУБД Greenplum. Ее использование облегчит проведение исследований для логистики, коммерческой дирекции и маркетинга.
Компания планирует обучать десятки тысяч ML-моделей, поэтому обратилась к технологии Kubernetes. Функция автоматического масштабирования кластеров позволяет задействовать сотни машин для обучения и автоматически уменьшать мощности при перерывах в использовании.
На платформе Mail.ru Cloud Solutions компания построила конвейер обработки больших данных, собираемый под задачу из готовых компонентов PaaS как аналитический конструктор. Запуск платформы Big Data в облаке позволил «Ашану» быстро и легко масштабироваться под потребности бизнеса за счет использования кластерных технологий, параллельных вычислений и автомасштабирования Kubernetes.
Как отмечает Александр Дорофеев, руководитель Big Data «Ашан Ритейл Россия», первым решением, которое перенесли и развернули на облачной платформе, стало прогнозирование спроса. Ожидается, что промышленное использование данного решения в облаке позволит сократить товарные запасы в магазинах минимум на 5% и увеличить продажи на 2% и более. Кроме того, использование микро-сервисной архитектуры на базе Kubernetes даст возможность эффективно управлять ресурсами в облаке и оптимизировать затраты на разработку, внедрение и поддержку ИИ-решений.