«Колмогоров» позволит намного быстрее решать такие связанные с машинным обучением и искусственным интеллектом задачи, как распределенное обучение нейросетевых моделей для распознавания речи, синтеза речи и обработки естественного языка, а также обучение классических моделей machine learning для задач скоринга, привлечения и предиктивной аналитики.
Благодаря построенному кластеру задачи по обучению нейросетей выполняются в сотни раз быстрее: например, для задачи по оптимизации исходящих звонков удалось за сутки переобучить модель, предсказывающую вероятность продажи финансовых продуктов на всем объеме накопленных за 13 лет данных. Переобучение модели традиционными способами заняло бы, по расчетам специалистов, около 6 месяцев. Использование кластера позволяет бизнесу быстрее и эффективнее проверять гипотезы, улучшать сервисы и выводить новые продукты на рынок.
Суперкомпьютер «Колмогоров» имеет пиковую производительность 658,5 терафлопс при вычислениях с плавающей точкой двойной точности. Система состоит из 10 узлов, оснащенных передовыми вычислителями NVIDIA Tesla V100 со специализированными тензорными ядрами для ускорения задач искусственного интеллекта. Вычислительные узлы суперкомпьютера Тинькофф объединены высокоскоростной сетью 100 Гигабит с поддержкой технологии RoCE. Сочетание передовых технологий позволило кластеру достичь производительности 418,9 терафлопс в тесте Linpack, что обеспечило выход системы в лидеры рейтинга самых быстрых суперкомпьютеров страны. «Колмогоров» занял 8 место в рейтинге TOP50 суперкомпьютеров России — самое высокое место среди коммерческих компаний, заявленных в рейтинге.
Кластер «Колмогоров» стал частью платформы «Тинькофф» для машинного обучения и искусственного интеллекта. Платформа включает в себя следующие элементы:
- инфраструктуру для сбора, хранения и обработки данных, их последующей разметки и извлечения признаков;
- инструменты для обучения моделей, перебора параметров и предсказания результатов;
- программные и графические интерфейсы для визуализации результатов и управления артефактами обучения;
- систему для автоматического развёртывания, мониторинга и менеджмента ресурсов.
«Мы не планировали строить систему с приставкой ‘супер’: в целом, это совсем небольшая часть нашей инфраструктуры, но полученные характеристики позволили кластеру войти в топ суперкомпьютеров России», — отметил Вячеслав Цыганов, директор по ИТ «Тинькофф». По его словам, платформа создана в рамках стратегии AI First, при которой все продукты, выпускаемые банком на рынок, содержат встроенный искусственный интеллект. Цель данной платформы – развивать культуру работы с данными, снизить порог входа в эту область для команд и сделать машинное обучение доступным для каждого аналитика и разработчика компании.