Проект стал продолжением сотрудничества, начатого в 2025 году. После запуска ФГАУ «ЦИТ» вычислительного кластера команда К2 НейроТех сформировала на базе инфраструктуры единый облачный хаб для промышленного ИИ, выполнив весь цикл работ за два месяца. Решение направлено на устранение ключевых инфраструктурных барьеров: дефицита GPU-мощностей, длительных сроков подготовки рабочих сред, непрозрачности учета и распределения вычислительных ресурсов, а также рисков, связанных с переходом на российские решения и защитой данных.
Основой реализованного решения стала ML-платформа KageCore от российского вендора AIDA tech, входящая в единый реестр отечественного ПО. Она обеспечивает полный цикл управления машинным обучением – от подготовки данных до развертывания моделей в промышленную эксплуатацию, предоставляя дата-сайентистам и ML-инженерам единую среду для работы с корпоративными данными при сохранении полного суверенитета над ними. Решение объединило инфраструктурные (IaaS) и платформенные (PaaS) сервисы в защищенную экосистему. В качестве аппаратного слоя использовались серверы и системы хранения данных российского производства для полного контроля над жизненным циклом оборудования и гарантий по модернизации.
В основе архитектуры платформы – пять взаимосвязанных подсистем, обеспечивающих полное соответствие требованиям регуляторов к защите информации и технологическую независимость инфраструктуры. Портал самообслуживания представляет собой конструктор сервисов: пользователь может выбрать операционную систему, в том числе сертифицированные ФСТЭК ОС Astra Linux и РЕД ОС, необходимые компоненты и развернуть рабочую среду в одно касание. Слой виртуализации и контейнеризации развернут на отказоустойчивой конфигурации с настроенной системой мониторинга, которая собирает данные от аппаратного уровня до уровня пользовательских приложений, и максимальной утилизации GPU при обучении моделей, включая несколько центров обработки данных.
Ключевой элемент платформы – ML-среда на базе KageCore, объединяющая интерактивные блокноты Jupyter для работы дата-сайентистов и инструменты управления полным жизненным циклом моделей. Платформа предоставляет пользователям единую точку доступа — портал самообслуживания с системой квотирования и биллинга. Это дает возможность различным подразделениям и проектным группам самостоятельно и оперативно запрашивать необходимые для работы вычислительные мощности. Маркетплейс платформы включает предустановленные векторные базы данных, брокеры сообщений, инструменты безопасности и популярные ML-фреймворки — TensorFlow, PyTorch, ONNX, Kafka, MLFlow и другие компоненты, необходимые для промышленной разработки ИИ.
За счет автоматизации развертывание типового рабочего окружения для задач ИИ теперь занимает менее 15 минут вместо нескольких дней ручной настройки. Ключевая особенность — гибкие сценарии работы с GPU: от выделения целиковых устройств для ресурсоемких задач обучения до гранулярного распределения vRAM объемом от 1 Гбайт для инференса моделей, что позволяет экономить вычислительные ресурсы и запускать несколько моделей параллельно на одном физическом ускорителе. Замкнутый контур мониторинга в реальном времени агрегирует тысячи метрик и формирует детализированные дашборды для контроля всех уровней – от физической инфраструктуры до прикладных ИИ-сервисов.
Архитектура платформы поддерживает одновременную работу более 500 виртуальных машин и контейнеров с гарантированным уровнем доступности свыше 99%. Система функционирует в изолированном сегменте сети, что полностью соответствует требованиям по защите информации, обеспечивая технологическую независимость.
Новый облачный хаб позволил закрыть критический разрыв между инфраструктурными ограничениями и потребностями исследовательских команд. Теперь ФГАУ «ЦИТ» предоставляет ресурсы как в классическом HPC-режиме через планировщик SLURM, так и в гибких средах виртуализации и контейнеризации. Подведомственные предприятия получили не просто доступ к GPU-мощностям, а готовую среду с предустановленным стеком ML-инструментов, протестированных на совместимость и готовых к промышленной эксплуатации. Исследовательские команды могут начинать работу сразу после авторизации в личном кабинете, не тратя недели на развертывание и настройку необходимого ПО.