Недавно команда студентов из Университета коммуникаций Китая (CUC) заняла второе место в конкурсе по оценке качества видео, генерированного искусственным интеллектом, на семинаре NTIRE 2025 года Международной конференции по компьютерному зрению и распознаванию образцов (CVPR), конференции высокого уровня в области компьютерного зрения. Команду возглавлял профессор Ши Пин из кафедры радио- и телевизионной инженерии в Школе информационной и коммуникационной инженерии CUC и состоял из Ци Зелу и Ван Шуки, студентов магистратуры по программе связи и информационных систем, и Чжан Чаоян, докторанта по программе информационной и коммуникационной инженерии.
NTIRE Challenge, организуемый CVPR, является одним из самых влиятельных международных конкурсов в области интеллектуального восстановления и улучшения изображения. Задача оценки качества XGC семинара CVPR NTIRE 2025 года включала несколько подтреков, а трек оценки качества видео, генерированного искусственным интеллектом, сосредоточен на многомерной оценке качества видео, генерированного искусственным интеллектом, с целью продвижения исследований в области понимания контента и методов моделирования качества для видео, генерированных искусственным интеллектом. Конкурс привлек более сотни команд из университетов, исследовательских институтов и компаний по всему миру, включая Пекинский технологический институт, Китайский университет науки и технологий и Шанхайский университет Цзяо Тонг.
Таблица лидеров конкурса оценки качества видео, созданного с помощью искусственного интеллекта
(CVPR 2025) (Топ-6)
Задача трека оценки качества видео, генерированного искусственным интеллектом, состояла в том, чтобы предсказать оценку качества восприятия видео, генерированных искусственным интеллектом, на основе пар быстрых видео и их субъективных маркировок оценки качества (MOS). Результаты конкурса определялись согласованностью между прогнозируемыми результатами участвующих решений и баллами MOS. Набор данных конкурса включал 34 029 видеороликов, созданных 14 основными моделями генерации видеороликов, охватывающих различные типы искажений, что делает задачу оценки качества очень сложной.
Примеры типов искажений в видео, сгенерированных ИИ из набора данных
Команда студентов CUC предложила архитектуру кодировщика с несколькими ветвями для устранения распространенных пространственно-временных искажений в видео, сгенерированных ИИ, разложив визуальное качество на три измерения: техническое качество, качество движения и семантическое содержание, для комплексного моделирования. Команда разработала многомодальную структуру инженерных подсказок для выравнивания этих трех типов визуальных признаков в языковом пространстве, одновременно вводя семантические якоря, чтобы помочь большим языковым моделям в установлении ассоциативных рассуждений между тремя признаками. На этапе обучения команда использовала технологию тонкой настройки LoRA для точной настройки большой языковой модели под конкретные задачи, значительно повысив точность прогнозирования качества. Решение команды CUC было одним из двух в треке, которое достигло более 60% согласованности с оценками MOS на тестовом наборе, продемонстрировав превосходные возможности моделирования и практическую производительность. Соответствующие результаты исследования будут опубликованы в статье на семинаре CVPR 2025.
Общая архитектурная схема решения
Факультет информационно-коммуникационной инженерии CUC тесно связан с национальной стратегией развития искусственного интеллекта, постоянно проводя оригинальные исследования в области технологий оценки качества видео, изучая эффективные методы оценки для понимания и генерации видео, а также внося вклад и решения в стандартизированную разработку технологий генерации ИИ.