📄 FoleyBench: A Benchmark for Video-to-Audio Models

#音频生成 #基准测试 #音视频 #多模态模型

7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Satvik Dixit(Carnegie Mellon University)
  • 通讯作者:未说明
  • 作者列表:Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University)

💡 毒舌点评

论文精准地指出了现有V2A评估基准(如VGGSound)在Foley场景下的核心缺陷(74%样本音画对应差),并针对性地提出了首个专用基准,分析深入且实用。然而,其数据集构建管道严重依赖商业模型(Gemini 2.5 Pro)进行质量过滤,这不仅增加了复现成本,也使得“可扩展自动化”的宣称打了一定折扣。

📌 核心摘要

  1. 要解决什么问题:现有的视频到音频(V2A)生成模型评估基准(如VGGSound)与Foley(音效)等实际下游应用严重脱节。分析发现,VGGSound中74%的视频音画对应关系差,且内容被语音和音乐主导,无法有效评估专为视觉事件生成同步音效的模型。
  2. 方法核心是什么:提出FoleyBench,首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量(视频、真实音频、文本描述)三元组。其核心是一个自动化的多阶段数据集构建管道:收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。
  3. 与已有方法相比新在哪里:(1)定义并专注于Foley场景(非语音、非音乐、音源可见且同步),填补了专用基准的空白;(2)设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系,支持细粒度分析;(3)提供了包含650个30秒长视频的子集FoleyBench-Long,以评估长音频生成能力。
  4. 主要实验结果如何:
    • 基准对比:与VGGSound相比,FoleyBench的Foley类别覆盖更广(Shannon熵5.35 vs 4.73),且评估结果相关性在音频保真度指标上较弱,说明其能提供不同的评估视角。
    • 模型评估:在对11个SotA V2A模型的评估中,MMAudio在多数指标上表现最佳,Seeing & Hearing在语义对齐(IB)上最优,V-AURA在时序同步(DS)上次优。主要发现包括:模型在生成离散事件音时,同步变好但质量变差;在处理背景音和多源声音时性能显著下降;文本条件能提供关键的语义先验。
    • 长视频评估:在FoleyBench-Long上,所有模型性能普遍下降,MMAudio仍保持同步优势,但音频质量大幅下滑;而专为长视频设计的LOVA在音频质量上表现相对较好。
    • 关键数据表格:
      方法VGGSound IB↑FoleyBench IB↑FoleyBench DS↓FoleyBench FAD↓FoleyBench IS↑
      V-AURA0.2760.2370.71627.26.44
      Seeing&Hearing0.3390.3711.0825.04.80
      MMAudio^T0.3320.3060.4478.7611.2
  5. 实际意义是什么:为V2A研究社区,特别是Foley合成方向,提供了一个更可靠、更贴近应用的评估标准,有助于更准确地衡量模型进展,并指明未来改进方向(如提升离散事件音保真度、处理多源/背景音、长时生成)。
  6. 主要局限性是什么:(1)数据集构建核心环节依赖商业黑箱模型(Gemini),可复现性和透明度受限;(2)虽然分析了失败模式,但并未提出解决这些核心挑战(如多源声音混合、长时一致性)的新模型或算法。

🏗️ 模型架构

本文并未提出一个新的V2A生成模型,而是提出了一个用于评估现有模型的基准测试框架。因此,其核心“架构”是数据集构建管道与评估体系。

数据集构建管道(见图1):

  1. 数据收集:从YouTube和Vimeo等平台的Creative Commons许可视频库(FineVideo, LVBench, V3C1)中收集原始视频。
  2. 场景检测与裁剪:使用自动场景边界检测算法将长视频分割为片段,并丢弃短于8秒的片段。
  3. 内容过滤(两阶段):
    • 音频过滤:使用YAMNet(一个预训练的音频事件分类器)对每个片段进行逐帧分类。如果任何帧的“语音”或“音乐”标签得分超过0.6,则丢弃该片段。此步骤过滤掉了97.7%的原始片段,主要去除了语音和音乐内容。
    • 音视频过滤:对通过音频过滤的片段,使用Gemini 2.5 Pro多模态模型进行判断。模型评估声音是否在因果和时间上与屏幕上的可见动作同步。例如,如果音频是鼓掌声,视频中必须显示同步的双手鼓掌动作。此阶段将片段的精度(符合Foley定义)从47%提升至72%。

评估体系:

  • 评估维度:跨模态对齐(ImageBind分数、CLAP分数、De-Sync时间偏移)和音频质量(FAD、IS、KLD)。
  • 评估工具:使用AV-benchmark工具包计算指标,音频特征基于PANN嵌入。
  • 元数据:每个片段附带UCS/AudioSet类别标签、声源复杂度(单源/多源)、声音包络类型(离散事件/连续环境音)等元数据,用于对模型性能进行细粒度切片分析。

💡 核心创新点

  1. 提出首个专为Foley场景设计的大规模基准:明确将评估目标对齐于“非语音、非音乐、音源可见且同步”的Foley应用,填补了关键空白。此前广泛使用的VGGSound被证明有高达74%的样本不适用于此目的。
  2. 设计自动化的多阶段质量控制管道:结合传统的音频分类器(YAMNet)和强大的多模态大模型(Gemini),实现了从海量网络视频中高效、可扩展地筛选高质量Foley片段,确保了数据集的音画对应质量。
  3. 构建支持细粒度分析的丰富元数据体系:不仅提供标准标签,还创新性地引入了声源复杂度和声音包络类型等属性,使得能够深入分析模型在不同类型(离散事件 vs 连续环境音)和复杂度(单源 vs 多源)下的具体表现和失败模式,而非仅仅报告整体平均分。
  4. 引入长视频评估子集:创建了FoleyBench-Long(650个30秒视频),专门针对V2A模型在长时音频生成上的挑战进行评估,这是一个被先前研究较少关注但实际应用中至关重要的能力。

🔬 细节详述

  • 训练数据:本文是基准测试论文,不涉及自有模型的训练。其构建的数据集FoleyBench包含5000个(视频,真实音频,文本描述)三元组,每个约8-10秒;FoleyBench-Long包含650个30秒视频。数据来源为YouTube和Vimeo的CC许可视频。
  • 损失函数:未说明(本文不训练模型)。
  • 训练策略:未说明。
  • 关键超参数:未说明(评测的SotA模型为外部模型)。
  • 训练硬件:未说明。
  • 推理细节:评测时使用各SotA模型的标准推理流程。
  • 正则化或稳定训练技巧:未说明。

📊 实验结果

  1. 与VGGSound基准的对比分析
  • 数据质量:对VGGSound测试集应用相同的过滤管道后,仅25.5%的原始视频可用。而FoleyBench估计有72%的视频相关。
  • 类别多样性:VGGSound过滤后的子集中,24.3%的UCS类别包含≤3个视频;而FoleyBench中仅13.4%的类别如此。Shannon熵:VGGSound过滤子集=4.73,FoleyBench=5.35(更高更均匀)。
  • 指标相关性:模型在两个基准上的得分Kendall秩相关系数(ρ):De-Sync (ρ=0.878), ImageBind (ρ=0.714), FAD (ρ=0.429), IS (ρ=0.611), KLD (ρ=0.556)。音频质量指标相关性较弱,表明FoleyBench提供了不同的评估信号。
  1. FoleyBench上的模型评估结果 下表总结了关键模型在FoleyBench上的核心指标表现(数据来源于Table 1):
方法类型ImageBind↑CLAP↑De-Sync(s)↓FAD↓IS↑KLD↓
V-AURA自回归0.2370.71627.26.443.46
Seeing&Hearing掩码预测0.3711.0825.04.803.30
MMAudio^T流匹配0.3060.3310.4478.7611.22.43
CAFA^TControlNet0.1980.2700.82515.57.412.54
LOVA^T扩散0.2090.1671.1520.77.613.15

关键发现:

  • 离散事件:以MMAudio为例,离散事件片段的De-Sync从整体0.447s改善至0.390s,但FAD从8.76恶化至16.35,IS从11.2降至8.8。CAFA和V-AURA也呈现类似趋势。
  • 背景声音:MMAudio在背景声音上的FAD(14.76 vs 9.77)和De-Sync(0.636s vs 0.405s)均变差,但KLD改善(1.98 vs 2.54)。
  • 多源声音:CAFA的FAD从16.55升至18.25,De-Sync从0.806s升至0.856s。MMAudio的FAD和De-Sync也变差,但其ImageBind分数反而提升(0.324 vs 0.296)。
  • 文本条件消融:SpecMaskFoley带文本时,在Action片段上FAD从23.18降至19.60,IB从0.188升至0.222,De-Sync从0.911s降至0.755s。
  1. FoleyBench-Long长视频评估结果(Table 2)
方法ImageBind↑CLAP↑De-Sync(s)↓FAD↓IS↑KLD↓
LOVA0.2370.1021.2026.25.022.44
VTA-LDM0.1470.0911.2283.21.272.19
MMAudio0.2390.1740.63827.53.872.40

关键结论:所有模型在长视频上性能均下降。MMAudio在同步性和语义对齐上仍最优,但音频质量(FAD)从8.76急剧恶化到27.5。LOVA在长视频的音频质量上相对保持较好。

⚖️ 评分理由

  • 学术质量:5.5/7:论文工作扎实、动机充分、分析深入。它清晰定义了一个重要的实际问题,并系统地设计了一个解决方案(基准)。实验不仅比较了模型整体性能,还通过元数据进行了有价值的细粒度分析,揭示了模型的具体弱点。创新性主要体现在基准设计和分析框架上,而非提出突破性的新生成算法。
  • 选题价值:1.5/2:针对视频到音频生成评估中的一个真实且重要的缺口(Foley场景)提出解决方案。该工作对推动V2A技术向实际应用(影视后期、游戏)发展有明确指导意义,与音频/多媒体领域的读者高度相关。扣分点在于其作为“基准”论文,对整个领域的直接推动力不如提出全新SOTA模型的工作。
  • 开源与复现加成:0.5/1:论文明确提供了数据集的样本链接(https://gclef-cmu.org/foleybench),并详细描述了构建流程,这对于复现其基准测试是有价值的。然而,论文中未明确提及是否开源完整的数据集(尽管有网站)、代码管道或评测脚本,这限制了完全复现的便利性。

🔗 开源详情

  • 代码:论文中未提及公开的代码仓库链接(如用于数据集构建的管道代码)。
  • 模型权重:未提及。本文是基准论文,不提出自有模型。
  • 数据集:论文提供了数据集样本网站(https://gclef-cmu.org/foleybench),并描述了数据来源和构建方法,但未明确说明完整数据集是否公开下载及具体获取方式。
  • Demo:未提及。
  • 复现材料:论文详细描述了数据集构建的多阶段管道、使用的工具(YAMNet, Gemini 2.5 Pro)和过滤参数,为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。
  • 论文中引用的开源项目:YAMNet, AV-benchmark toolkit, PANNs, LAION-CLAP, ImageBind等。

← 返回 ICASSP 2026 论文分析