📄 FoleyBench: A Benchmark for Video-to-Audio Models

#音频生成 #基准测试 #音视频 #多模态模型

✅ 7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Satvik Dixit（Carnegie Mellon University）
通讯作者：未说明
作者列表：Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University)

💡 毒舌点评

论文精准地指出了现有V2A评估基准（如VGGSound）在Foley场景下的核心缺陷（74%样本音画对应差），并针对性地提出了首个专用基准，分析深入且实用。然而，其数据集构建管道严重依赖商业模型（Gemini 2.5 Pro）进行质量过滤，这不仅增加了复现成本，也使得“可扩展自动化”的宣称打了一定折扣。

🔗 开源详情

代码：论文中未提及公开的代码仓库链接（如用于数据集构建的管道代码）。
模型权重：未提及。本文是基准论文，不提出自有模型。
数据集：论文提供了数据集样本网站（https://gclef-cmu.org/foleybench），并描述了数据来源和构建方法，但未明确说明完整数据集是否公开下载及具体获取方式。
Demo：未提及。
复现材料：论文详细描述了数据集构建的多阶段管道、使用的工具（YAMNet， Gemini 2.5 Pro）和过滤参数，为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。
论文中引用的开源项目：YAMNet， AV-benchmark toolkit， PANNs， LAION-CLAP， ImageBind等。

📌 核心摘要

要解决什么问题：现有的视频到音频（V2A）生成模型评估基准（如VGGSound）与Foley（音效）等实际下游应用严重脱节。分析发现，VGGSound中74%的视频音画对应关系差，且内容被语音和音乐主导，无法有效评估专为视觉事件生成同步音效的模型。
方法核心是什么：提出FoleyBench，首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量（视频、真实音频、文本描述）三元组。其核心是一个自动化的多阶段数据集构建管道：收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。
与已有方法相比新在哪里：（1）定义并专注于Foley场景（非语音、非音乐、音源可见且同步），填补了专用基准的空白；（2）设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系，支持细粒度分析；（3）提供了包含650个30秒长视频的子集FoleyBench-Long，以评估长音频生成能力。
主要实验结果如何：
- 基准对比：与VGGSound相比，FoleyBench的Foley类别覆盖更广（Shannon熵5.35 vs 4.73），且评估结果相关性在音频保真度指标上较弱，说明其能提供不同的评估视角。
- 模型评估：在对11个SotA V2A模型的评估中，MMAudio在多数指标上表现最佳，Seeing & Hearing在语义对齐(IB)上最优，V-AURA在时序同步(DS)上次优。主要发现包括：模型在生成离散事件音时，同步变好但质量变差；在处理背景音和多源声音时性能显著下降；文本条件能提供关键的语义先验。
- 长视频评估：在FoleyBench-Long上，所有模型性能普遍下降，MMAudio仍保持同步优势，但音频质量大幅下滑；而专为长视频设计的LOVA在音频质量上表现相对较好。
- 关键数据表格：
  方法 VGGSound IB↑ FoleyBench IB↑ FoleyBench DS↓ FoleyBench FAD↓ FoleyBench IS↑
  V-AURA 0.276 0.237 0.716 27.2 6.44
  Seeing&Hearing 0.339 0.371 1.08 25.0 4.80
  MMAudio^T 0.332 0.306 0.447 8.76 11.2
实际意义是什么：为V2A研究社区，特别是Foley合成方向，提供了一个更可靠、更贴近应用的评估标准，有助于更准确地衡量模型进展，并指明未来改进方向（如提升离散事件音保真度、处理多源/背景音、长时生成）。
主要局限性是什么：（1）数据集构建核心环节依赖商业黑箱模型（Gemini），可复现性和透明度受限；（2）虽然分析了失败模式，但并未提出解决这些核心挑战（如多源声音混合、长时一致性）的新模型或算法。

方法	VGGSound IB↑	FoleyBench IB↑	FoleyBench DS↓	FoleyBench FAD↓	FoleyBench IS↑
V-AURA	0.276	0.237	0.716	27.2	6.44
Seeing&Hearing	0.339	0.371	1.08	25.0	4.80
MMAudio^T	0.332	0.306	0.447	8.76	11.2

🏗️ 模型架构

本文并未提出一个新的V2A生成模型，而是提出了一个用于评估现有模型的基准测试框架。因此，其核心“架构”是数据集构建管道与评估体系。

数据集构建管道（见图1）：

数据收集：从YouTube和Vimeo等平台的Creative Commons许可视频库（FineVideo, LVBench, V3C1）中收集原始视频。
场景检测与裁剪：使用自动场景边界检测算法将长视频分割为片段，并丢弃短于8秒的片段。
内容过滤（两阶段）：
- 音频过滤：使用YAMNet（一个预训练的音频事件分类器）对每个片段进行逐帧分类。如果任何帧的“语音”或“音乐”标签得分超过0.6，则丢弃该片段。此步骤过滤掉了97.7%的原始片段，主要去除了语音和音乐内容。
- 音视频过滤：对通过音频过滤的片段，使用Gemini 2.5 Pro多模态模型进行判断。模型评估声音是否在因果和时间上与屏幕上的可见动作同步。例如，如果音频是鼓掌声，视频中必须显示同步的双手鼓掌动作。此阶段将片段的精度（符合Foley定义）从47%提升至72%。

评估体系：

评估维度：跨模态对齐（ImageBind分数、CLAP分数、De-Sync时间偏移）和音频质量（FAD、IS、KLD）。
评估工具：使用AV-benchmark工具包计算指标，音频特征基于PANN嵌入。
元数据：每个片段附带UCS/AudioSet类别标签、声源复杂度（单源/多源）、声音包络类型（离散事件/连续环境音）等元数据，用于对模型性能进行细粒度切片分析。

💡 核心创新点

提出首个专为Foley场景设计的大规模基准：明确将评估目标对齐于“非语音、非音乐、音源可见且同步”的Foley应用，填补了关键空白。此前广泛使用的VGGSound被证明有高达74%的样本不适用于此目的。
设计自动化的多阶段质量控制管道：结合传统的音频分类器（YAMNet）和强大的多模态大模型（Gemini），实现了从海量网络视频中高效、可扩展地筛选高质量Foley片段，确保了数据集的音画对应质量。
构建支持细粒度分析的丰富元数据体系：不仅提供标准标签，还创新性地引入了声源复杂度和声音包络类型等属性，使得能够深入分析模型在不同类型（离散事件 vs 连续环境音）和复杂度（单源 vs 多源）下的具体表现和失败模式，而非仅仅报告整体平均分。
引入长视频评估子集：创建了FoleyBench-Long（650个30秒视频），专门针对V2A模型在长时音频生成上的挑战进行评估，这是一个被先前研究较少关注但实际应用中至关重要的能力。

🔬 细节详述

训练数据：本文是基准测试论文，不涉及自有模型的训练。其构建的数据集FoleyBench包含5000个（视频，真实音频，文本描述）三元组，每个约8-10秒；FoleyBench-Long包含650个30秒视频。数据来源为YouTube和Vimeo的CC许可视频。
损失函数：未说明（本文不训练模型）。
训练策略：未说明。
关键超参数：未说明（评测的SotA模型为外部模型）。
训练硬件：未说明。
推理细节：评测时使用各SotA模型的标准推理流程。
正则化或稳定训练技巧：未说明。

📊 实验结果

与VGGSound基准的对比分析

数据质量：对VGGSound测试集应用相同的过滤管道后，仅25.5%的原始视频可用。而FoleyBench估计有72%的视频相关。
类别多样性：VGGSound过滤后的子集中，24.3%的UCS类别包含≤3个视频；而FoleyBench中仅13.4%的类别如此。Shannon熵：VGGSound过滤子集=4.73，FoleyBench=5.35（更高更均匀）。
指标相关性：模型在两个基准上的得分Kendall秩相关系数（ρ）：De-Sync (ρ=0.878), ImageBind (ρ=0.714), FAD (ρ=0.429), IS (ρ=0.611), KLD (ρ=0.556)。音频质量指标相关性较弱，表明FoleyBench提供了不同的评估信号。

FoleyBench上的模型评估结果下表总结了关键模型在FoleyBench上的核心指标表现（数据来源于Table 1）：

方法	类型	ImageBind↑	CLAP↑	De-Sync(s)↓	FAD↓	IS↑	KLD↓
V-AURA	自回归	0.237	–	0.716	27.2	6.44	3.46
Seeing&Hearing	掩码预测	0.371	–	1.08	25.0	4.80	3.30
MMAudio^T	流匹配	0.306	0.331	0.447	8.76	11.2	2.43
CAFA^T	ControlNet	0.198	0.270	0.825	15.5	7.41	2.54
LOVA^T	扩散	0.209	0.167	1.15	20.7	7.61	3.15

关键发现：

离散事件：以MMAudio为例，离散事件片段的De-Sync从整体0.447s改善至0.390s，但FAD从8.76恶化至16.35，IS从11.2降至8.8。CAFA和V-AURA也呈现类似趋势。
背景声音：MMAudio在背景声音上的FAD（14.76 vs 9.77）和De-Sync（0.636s vs 0.405s）均变差，但KLD改善（1.98 vs 2.54）。
多源声音：CAFA的FAD从16.55升至18.25，De-Sync从0.806s升至0.856s。MMAudio的FAD和De-Sync也变差，但其ImageBind分数反而提升（0.324 vs 0.296）。
文本条件消融：SpecMaskFoley带文本时，在Action片段上FAD从23.18降至19.60，IB从0.188升至0.222，De-Sync从0.911s降至0.755s。

FoleyBench-Long长视频评估结果（Table 2）

方法	ImageBind↑	CLAP↑	De-Sync(s)↓	FAD↓	IS↑	KLD↓
LOVA	0.237	0.102	1.20	26.2	5.02	2.44
VTA-LDM	0.147	0.091	1.22	83.2	1.27	2.19
MMAudio	0.239	0.174	0.638	27.5	3.87	2.40

关键结论：所有模型在长视频上性能均下降。MMAudio在同步性和语义对齐上仍最优，但音频质量（FAD）从8.76急剧恶化到27.5。LOVA在长视频的音频质量上相对保持较好。

⚖️ 评分理由

学术质量：5.5/7：论文工作扎实、动机充分、分析深入。它清晰定义了一个重要的实际问题，并系统地设计了一个解决方案（基准）。实验不仅比较了模型整体性能，还通过元数据进行了有价值的细粒度分析，揭示了模型的具体弱点。创新性主要体现在基准设计和分析框架上，而非提出突破性的新生成算法。
选题价值：1.5/2：针对视频到音频生成评估中的一个真实且重要的缺口（Foley场景）提出解决方案。该工作对推动V2A技术向实际应用（影视后期、游戏）发展有明确指导意义，与音频/多媒体领域的读者高度相关。扣分点在于其作为“基准”论文，对整个领域的直接推动力不如提出全新SOTA模型的工作。
开源与复现加成：0.5/1：论文明确提供了数据集的样本链接（https://gclef-cmu.org/foleybench），并详细描述了构建流程，这对于复现其基准测试是有价值的。然而，论文中未明确提及是否开源完整的数据集（尽管有网站）、代码管道或评测脚本，这限制了完全复现的便利性。

← 返回 ICASSP 2026 论文分析

📄 FoleyBench: A Benchmark for Video-to-Audio Models#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文