Кросс-форматная контентная модель, внедренная VK, анализирует название, обложку, аудио и видеоряд ролика по отдельности. Нейросеть объединяет все данные в едином пространстве, что позволяет рекомендательной системе понимать смысл контента и объединять разные форматы. Например, такая модель может предложить похожий по смыслу ролик в VK Видео на основе понравившегося текстового поста ВКонтакте или короткого видео в VK Клипах, что делает рекомендации кросс-платформенными.
Мультимодальная языковая модель (MMLM) сравнивает контент по смыслу и тематике, объясняет комментарии, описывает интересы пользователя к конкретным сценам и учитывает эмоциональный тон материалов. Нейросеть обучена более чем на 3 млн русскоязычных материалов и может анализировать видео, изображения, тексты и аудио. С ней рекомендательные алгоритмы быстрее показывают новый контент в продуктах VK без необходимости получения первых пользовательских реакций.
Пользователи охотнее вовлекаются в просмотр, если замечают знакомых героев. Рекомендательная система автоматически распознает известных персон на видео, что позволяет алгоритмам учитывать как тематики контента, так и присутствие в роликах конкретных популярных личностей. Технология построена на двух моделях машинного обучения: одна анализирует видеоряд с частотой один кадр в секунду, а вторая определяет на кадрах лица и формирует единый «образ» героя.
Новые технологии Discovery за первые месяцы после внедрения помогли увеличить число позитивных реакций на контент на 7%, а рекомендации похожих по смыслу видео стали на 60% точнее.
Помимо VK Видео и внутренних задач поиска и аналитики, технологии будут использоваться в других продуктах VK с пользовательским контентом — от коротких видео до музыки.