多尺度模型

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”，未明确标注第一作者）通讯作者：未说明作者列表：Shentong Mo（卡内基梅隆大学，MBZUAI，清华大学），Zehua Chen（清华大学），Jun Zhu（清华大学） 💡 毒舌点评亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内，为音视频预训练提供了新范式，实验结果在多个指标上刷新了SOTA；短板是论文对于模型具体架构细节（如扩散模型中噪声预测网络的具体设计）、训练硬件和完整超参数列表描述不足，且未提及开源计划，这使得严格的复现存在挑战。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开数据集VGGSound、AudioSet和Panda70M，但未说明是否提供了特定的预处理脚本。 Demo：未提及在线演示。复现材料：给出了部分训练细节（优化器、学习率、批次大小、训练轮数），并参考了Diff-Foley的扩散设置。但模型架构的具体实现细节、完整的超参数列表和训练日志/检查点未提供。论文中引用的开源项目：引用并基于Diff-Foley [6]的生成器设置；使用Adam优化器。开源计划：论文中未提及开源计划。 📌 核心摘要本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架，它统一了多尺度视频-音频对齐（MSA）的对比学习目标与多尺度空间-时间扩散（MSD）的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比，GMS-CAVP能捕获从细到粗的时空依赖关系，并直接建模模态间的转换映射。主要实验结果表明，在VGGSound等数据集上，GMS-CAVP在视频到音频生成任务（KLD: 1.63, FAD: 0.75, Align Acc: 95.87）和检索任务（如视频到音频R@1: 28.90）上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销，以及对扩散模型采样速度的潜在影响（论文未深入讨论）。 ...