V2A-DPO: Omni-Preference Optimization for Video-To-Audio Generation

📄 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Generation #音视频 #直接偏好优化 #流匹配 #模型评估 ✅ 7.5/10 | 前25% | #视频到音频生成 | #直接偏好优化 | #音视频 #流匹配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China) 通讯作者:Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China)(论文脚注中对应邮箱 yjchen@se.cuhk.edu.hk) 作者列表:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China),Timmy Gang(National Research Council Canada, Canada),Yongqian Wang(The University of Warwick, UK),Yuzhe Liang(Shanghai Jiao Tong University, China),Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China) 💡 毒舌点评 这篇论文堪称“模范工程论文”:它没有声称发明了全新的生成范式,而是精准地识别了当前视频音频生成模型在“对齐人类审美与同步偏好”上的短板,并系统性地设计了一套包含自动评估、数据生成、课程训练的完整解决方案,实验结果也验证了其有效性。不过,其核心创新更偏向于应用层面的“术”而非基础理论层面的“道”,AudioScore本身是现有工具的集成而非原理创新,课程学习DPO的引入也较为直接。 ...

2026-04-29