GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”,未明确标注第一作者) 通讯作者:未说明 作者列表:Shentong Mo(卡内基梅隆大学,MBZUAI,清华大学),Zehua Chen(清华大学),Jun Zhu(清华大学) 💡 毒舌点评 亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内,为音视频预训练提供了新范式,实验结果在多个指标上刷新了SOTA;短板是论文对于模型具体架构细节(如扩散模型中噪声预测网络的具体设计)、训练硬件和完整超参数列表描述不足,且未提及开源计划,这使得严格的复现存在挑战。 📌 核心摘要 本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架,它统一了多尺度视频-音频对齐(MSA)的对比学习目标与多尺度空间-时间扩散(MSD)的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比,GMS-CAVP能捕获从细到粗的时空依赖关系,并直接建模模态间的转换映射。主要实验结果表明,在VGGSound等数据集上,GMS-CAVP在视频到音频生成任务(KLD: 1.63, FAD: 0.75, Align Acc: 95.87)和检索任务(如视频到音频R@1: 28.90)上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销,以及对扩散模型采样速度的潜在影响(论文未深入讨论)。 关键实验数据对比: 方法 KLD ↓ FAD ↓ Align Acc ↑ SpecVQGAN 3.78 6.63 48.79 Im2Wav 2.54 6.32 74.31 Diff-Foley 3.15 6.40 82.47 FoleyGen 2.89 2.59 73.83 V2A-Mapper 2.78 0.99 74.37 Seeing & Hearing 2.62 2.63 78.95 MaskVAT 2.65 1.51 63.87 VAB 2.58 2.69 76.83 VATT 2.25 2.35 82.81 GMS-CAVP (ours) 1.63 0.75 95.87 🏗️ 模型架构 GMS-CAVP是一个统一的判别-生成预训练框架,旨在学习鲁棒的音视频对应表示。 ...

2026-04-29