VK похвалилась возможностями ИИ Discovery
Но от проплаченных клипов это все равно вашу ленту не спасет

Компания VK подробно рассказала о внутреннем устройстве своей системы рекомендаций Discovery, которая использует комплекс алгоритмов на базе искусственного интеллекта для глубокого анализа и точного подбора мультимедийного контента.
Основу технологии составляет кросс-форматная модель, которая деагностирует видео на составные элементы: изображение, звук, текст и заголовки. Каждый тип данных обрабатывается специализированным энкодером, преобразующим информацию в числовые векторы (эмбеддинги). Затем нейросеть объединяет эти разнородные данные в целостный мультимодальный образ, что позволяет системе глубже понимать содержание и контекст ролика.
Отдельное внимание уделено системе распознавания знаменитостей. Алгоритм анализирует ключевые кадры (по одному в секунду), обнаруживает лица и с помощью иерархической кластеризации группирует изображения по людям, учитывая разные ракурсы и условия. Полученные усредненные данные сверяются с базой известных личностей для автоматической идентификации.
Для обработки информации используется мультимодальная языковая модель на основе трансформерной архитектуры. Визуальные и аудиоданные сжимаются с помощью линейного преобразования до компактного размера — всего 16 токенов для видео, что ускоряет анализ без серьезной потери качества. Это позволяет системе за один запрос обрабатывать до 2000 роликов, генерируя их описания, оценивая релевантность, предлагая заголовки и прогнозируя реакцию зрителей.