AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #音视频 #零样本 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pengjun Fang(The Hong Kong University of Science and Technology) 通讯作者:Harry Yang(The Hong Kong University of Science and Technology,标注有邮箱B) 作者列表:Pengjun Fang(香港科技大学)、Yingqing He(香港科技大学)、Yazhou Xing(香港科技大学)、Qifeng Chen(香港科技大学,标注有邮箱B)、Ser-Nam Lim(University of Central Florida,标注有邮箱B)、Harry Yang(香港科技大学,标注有邮箱B) 💡 毒舌点评 亮点:巧妙地利用“参考音频”作为控制信号,绕过了文本描述的语义模糊和粒度不足问题,实现了真正细粒度(如不同狗叫)和创意性(如音色迁移)的音效生成,两阶段训练策略的设计也颇具巧思。短板:核心生成模型(多模态Transformer+Flow Matching)是已有框架的整合,原创性集中在“控制方式”和“训练技巧”上;论文坦诚的指出,在处理复杂多声源场景时仍显力不从心,这限制了其在真实世界复杂声景中的即刻应用。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及公开专用数据集。所使用的VGGSound、AudioCaps、WavCaps均为已有公开数据集。 Demo:未提及。 复现材料:提供了极其详细的训练细节(附录A)、网络架构细节(附录B)以及方法描述,为复现奠定了坚实基础。 引用的开源项目:论文引用了多个开源工具或模型,包括:CLIP、Synchformer、BigVGAN(声码器)、ImageBind(用于数据筛选)、AdamW优化器、EMA技术等。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:现有视频到音频(V2A)生成方法主要依赖文本提示,存在两大瓶颈:训练数据中的语义粒度模糊(如将不同的狗叫统称为“狗叫”)和文本难以描述微声学特征(如“金属碰撞声”无法区分锤击和链条声),导致无法进行精细的声音合成控制。 方法核心是什么:提出AC-Foley,一个参考音频引导的V2A生成框架。它直接利用一段参考音频的声学特征(而非语义)作为条件,结合视频和文本信息,通过多模态Transformer和条件流匹配模型,生成与视频同步且具有目标音色特征的声音。 与已有方法相比新在哪里:a) 控制维度升级:从文本/视频语义控制升级为直接的声学特征控制,实现细粒度合成和音色迁移。b) 训练策略创新:采用两阶段训练(重叠与非重叠条件学习),使模型既能从对齐样本中学习声学特征,又能泛化到非对齐的时序上下文中,避免简单复制。c) 零样本生成能力:通过参考音频条件,能生成训练集中未见过的声音类别(如带消音器的枪声)。 主要实验结果如何:在VGGSound测试集上,AC-Foley在音频条件控制设置下,所有指标均优于基线(如MMAudio+CLAP)。例如,其FDPaSST为56.00(优于基线70.80),MCD为11.37(优于基线14.63)。在无音频条件的纯V2A任务中,AC-Foley(w/o audio)也达到或接近SOTA水平(FDPaSST 64.90)。在音色迁移任务(Greatest Hits数据集)上,即使未在此数据集训练,AC-Foley的MCD(3.39)也显著优于CondFoley(4.18)。人工评估显示,在声学保真度上,83.5%的参与者认为AC-Foley生成的音频更接近真实音频。 实际意义是什么:为影视、游戏、动画等内容创作者提供了强大的音效设计工具,能够根据示例音频快速生成、修改或替换音轨中的声音元素,极大提升了创作灵活性和效率。 主要局限性是什么:当输入视频和参考音频包含多个重叠声源(如对话、环境声、动作声混合)时,模型难以将特定声音元素与对应的视觉事件精确对齐。参考音频与视频内容节奏差异过大时,生成质量会下降。 🏗️ 模型架构 整体架构是一个基于条件流匹配(Conditional Flow Matching) 的多模态Transformer模型,旨在生成与视频同步、受参考音频和文本条件控制的梅尔谱图,最终通过声码器转换为波形。 ...