ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

#音频生成 #多模态模型 #扩散模型 #基准测试

🔥 评分：9.2/10 | arxiv

👥 作者与机构

第一作者：Jianxuan Yang（小米 MiLM Plus）
通讯作者：Jian Luan（小米 MiLM Plus）
其他作者：
- Xinyue Guo（小米 MiLM Plus）
- Zhi Cheng（小米 MiLM Plus，武汉大学）
- Kai Wang（小米 MiLM Plus，武汉大学）
- Lipan Zhang（小米 MiLM Plus）
- Jinjie Hu（小米 MiLM Plus）
- Qiang Ji（小米 MiLM Plus）
- Yihua Cao（小米 MiLM Plus）
- Yihao Meng（小米 MiLM Plus，武汉大学）
- Zhaoyue Cui（小米 MiLM Plus，武汉大学）
- Mengmei Liu（小米 MiLM Plus）
- Meng Meng（小米 MiLM Plus）（所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”，部分作者有武汉大学的联合署名）

💡 毒舌点评

亮点：这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”，并给出了系统性的解决方案，尤其是提出的VGGSound-TVC基准，简直是给“视觉霸权”模型们准备的“照妖镜”。
槽点：方法虽然精巧，但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略，对算力和数据的需求不低，感觉是在用“钞能力”解决“控制力”问题，小团队复现起来可能要掉头发。

🔗 开源详情

代码：论文中明确表示代码已开源，地址为：https://yjx-research.github.io/ControlFoley/ 。未提及具体框架，但基于描述可能使用PyTorch。
模型权重：论文中明确表示预训练模型已开源，可通过上述主页获取。发布了ControlFoley的统一模型。
数据集：论文中明确表示VGGSound-TVC基准数据集已开源，可通过上述主页获取。同时，训练使用的VGGSound等数据集均为公开数据集。
预训练权重：CAV-MAE-ST编码器的预训练权重应已提供。ControlFoley模型基于MMDiT骨干从头训练。
在线Demo：论文中明确提供了在线演示（demos）的链接。
论文中引用的开源项目：论文依赖多个开源预训练模型，包括：CLIP、CLAP、Audio StyleConditioner、ImageBind、Synchformer、PANNs、PaSST、Resemblyzer等。

📌 核心摘要

本文提出了ControlFoley，一个统一且可控的视频到音频生成框架，旨在解决现有方法在跨模态冲突下文本控制力弱、以及参考音频控制中音色与时间信息纠缠的问题。其核心贡献包括：1）提出联合视觉编码范式，结合CLIP和CAV-MAE-ST编码器，增强文本在语义冲突时的控制权威；2）设计时间-音色解耦策略，通过抑制参考音频中的时间信息、保留音色特征，实现精准的音色控制；3）采用模态鲁棒训练方案，通过随机模态丢弃和统一表示对齐（REPA）损失，确保模型在任意模态缺失下的稳定性能；4）构建了首个专门评估文本可控性的基准VGGSound-TVC，量化不同语义冲突程度下的控制效果。实验表明，ControlFoley在文本引导、文本控制和音频控制三个核心视频到音频任务上均达到最先进水平，尤其在跨模态冲突下展现出优越的可控性和同步性，并与工业级系统相比具有竞争力。

🏗️ 模型架构

ControlFoley的整体架构基于多模态扩散Transformer（MMDiT）。其完整输入输出流程如下：

输入：视频（V）、可选的文本描述（T）、可选的参考音频（A_r）。
视觉编码（双分支）：
- CLIP分支：使用预训练的CLIP视觉编码器提取视觉语义特征 z_v^CLIP，用于与文本特征对齐。
- CAV-MAE-ST分支：这是一个专门设计的时空音频-视觉编码器。它将视频帧和对应的音频片段进行分词化，通过掩码重建任务（重建被掩码的视觉和音频token）进行预训练，以学习细粒度的时空对应关系。其输出特征 z_v^CAV 擅长捕捉运动模式和声画同步信息。
- 融合：两个分支的输出通过线性投影后相加，得到最终的联合视觉表示 z_v^joint。这种设计在语义一致时（TV2A）利用CLIP增强协同，在语义冲突时（TC-V2A）利用CAV-MAE-ST特征缓解视觉主导。
文本编码：文本描述通过预训练的文本编码器（如CLIP的文本部分）得到文本特征 z_t。
参考音频编码（双路径）：
- 语义条件路径：整个参考音频通过预训练的CLAP编码器得到全局音频嵌入，作为条件注入MMDiT的特定分支。该分支移除了位置编码并简化了时序建模模块（用MLP替代ConvMLP），以抑制时间信息，聚焦全局声学风格。
- 音色条件路径：从参考音频中随机裁剪一个片段，通过预训练的音频StyleConditioner编码器提取音色表示，投影后作为全局条件 c_timbre 注入。
生成骨干（MMDiT）：以视频潜在变量（通常为噪声）为起点，MMDiT通过一系列多模态和单模态Transformer块进行去噪。在多模态块中，音频潜在变量、视觉特征、文本特征、参考音频特征以及全局条件（音色、文本等）进行联合注意力计算，实现多条件融合。模型使用流匹配（Flow Matching）目标进行训练。
输出：最终去噪后的音频潜在变量通过VAE解码器重建为波形音频。

💡 核心创新点

联合视觉编码范式（解决模态冲突）：
- 是什么：并行使用CLIP（强语义对齐）和CAV-MAE-ST（强声画对齐）两个视觉编码器，融合其特征作为最终视觉条件。
- 之前的方法：通常只使用CLIP或与之对齐的视觉特征。当文本与视频语义冲突时，由于CLIP空间中文本和视觉特征高度耦合，会导致“视觉主导”现象，文本控制失效。
- 如何解决：CAV-MAE-ST编码器通过掩码重建任务学习到的特征，更关注于驱动声音产生的时空动态（如物体运动），而非高层语义。这为模型提供了与文本语义相对解耦的视觉线索，从而在冲突时能更好地平衡模态优先级，让文本指令“说得上话”。
- 效果：在VGGSound-TVC基准��，ControlFoley在文本-视觉冲突增加时，能更主动地降低与视觉的一致性（IB分数下降更快），同时保持较高的文本对齐度（CLAP分数），证明了其更强的文本控制力。
时间-音色解耦控制策略（实现精准音色控制）：
- 是什么：在利用参考音频进行音色控制时，通过模型设计（移除位置编码、简化时序模块）和独立的音色编码器，显式地分离并抑制参考音频中的时间节奏信息，仅保留音色特征。
- 之前的方法：如CondFoleyGen、MultiFoley等，其参考音频编码会同时包含音色和时间信息。当参考音频的节奏与视频不匹配时，会产生时间干扰，导致生成的音频同步性差或风格控制不精确。
- 如何解决：双路径设计——语义条件路径提供去除了时序的全局声学上下文，音色条件路径提供纯净的音色嵌入。两者共同引导生成过程，确保音频继承参考音色，而时间结构严格跟随视频。
- 效果：在Greatest Hits数据集的AC-V2A任务中，ControlFoley在音色相似度（Resemblyzer: 0.81）和时间同步性（DeSync: 0.85）上均优于专门模型CondFoleyGen和通用模型AudioX。
模态鲁棒训练与统一REPA对齐（确保多任务稳定性）：
- 是什么：训练时随机丢弃视觉、文本、参考音频模态，并引入统一表示对齐（REPA）损失，将扩散Transformer中间层的音频特征与所有可用条件的聚合特征进行对齐。
- 之前的方法：模型往往过度依赖某一模态（如视觉），当该模态缺失或提供冲突信息时，性能急剧下降。缺乏针对多模态组合的鲁棒性训练。
- 如何解决：随机模态丢弃迫使模型不过度依赖任何单一模态。REPA损失通过一个聚合的、自适应的条件目标（而非针对每个模态单独对齐），引导音频表示与任何可用的高层语义保持一致，增强了跨模态语义一致性。
- 效果：使ControlFoley能够作为一个统一框架，灵活处理从单模态到多模态组合的各种生成任务（TV2A, TC-V2A, AC-V2A），并在所有任务上保持高性能。
VGGSound-TVC基准（填补评估空白）：
- 是什么：首个专门用于评估文本控制能力的视频到音频基准，包含25,005个视频-文本对，其中文本被系统性地修改为从无冲突（L0）到强冲突（L3）的四个等级。
- 之前的缺陷：现有数据集（如VGGSound）假设视频-文本语义一致，无法评估模型在冲突下的控制行为，导致“视觉主导”问题被掩盖。
- 如何解决：利用Gemini 2.5 Pro生成与原始视频语义在不同程度上冲突的文本描述，同时保持声音的时间结构一致性，从而量化评估模型的模态适应能力。
- 效果：为社区提供了标准化的评估协议，清晰地揭示了不同模型在跨模态冲突下的控制力差异，ControlFoley在此基准上表现最佳。

🔬 细节详述

训练数据：
- CAV-MAE-ST预训练：VGGSound训练集，180K个10秒视频片段，309类。
- ControlFoley训练：
  - 音频-视觉-文本数据：VGGSound训练集（重复5倍）。
  - 音频-文本数据：AudioCaps, WavCaps, Clotho，总计约900K条音频。
  - 总数据规模约180K * 5 + 900K = 1.8M条数据。
- 数据预处理：视频采样率4 fps，音频Mel频谱图参数：128个mel滤波器组，10ms帧移。参考音频在训练时使用真实目标音频，音色条件分支随机裁剪2-4秒片段。
损失函数：
- CAV-MAE-ST预训练：对比损失（权重0.01）+ 掩码重建损失（L2范数，权重1）。
- ControlFoley训练：
  - 流匹配损失：标准扩散模型训练目标。
  - REPA损失：公式为 L_REPA = -cosine_similarity(Proj(h_audio), z_cond)。其中h_audio是第8个单模态DiT块的输出，z_cond是聚合的全局视觉、文本、音色条件特征。Proj是一个可学习的MLP投影层。
训练策略：
- CAV-MAE-ST：学习率1e-4，批次大小160，训练约150轮，使用75%的token掩码率。
- ControlFoley：学习率未明确给出具体数值，但提到使用标准设置。批次大小未明确。训练300,000次迭代。使用10%的概率随机丢弃每个模态输入（视觉、文本、参考音频）。
关键超参数：
- 推理步数：25步。
- 分类器自由引导尺度：4.5。
- 输出音频采样率：44.1 kHz。
- 模型规模：骨干包含18个多模态DiT块和36个单模态DiT块。
训练硬件：GPU总计算能力176 TFLOPS（FP32精度）。具体型号和数量未明确。
推理细节：采用流匹配的常微分方程求解器进行去噪，使用分类器自由引导来增强条件遵循度。
数据增强/正则化：主要的正则化手段是随机模态丢弃。CAV-MAE-ST预训练中的掩码也是一种强大的自监督数据增强。

📊 实验结果

主要指标对比表（关键数据）：

TV2A任务（VGGSound-Test数据集）：

模型	IB↑	CLAP(LAION)↑	CLAP(MS)↑	DeSync↓	IS(PANNs)↑	KL(PANNs)↓
MMAudio-L	0.33	0.22	0.31	0.45	17.36	1.66
HunyuanVideo-Foley-XXL	0.32	0.23	0.28	0.55	15.26	2.02
AudioX-MAF-MMDiT	0.28	0.19	0.28	0.89	15.83	2.02
ControlFoley	0.32	0.26	0.36	0.42	22.08	1.71

TC-V2A任务（VGGSound-TVC，冲突等级L1）：
模型 IB↓ CLAP↑
AudioX-MAF-MMDiT 0.86 0.86
MMAudio-L 0.39 0.38
ControlFoley 0.37 0.36
AC-V2A任务（Greatest Hits数据集）：
模型 Resemblyzer↑ DeSync↓ IS↑
CondFoleyGen 0.78 0.96 3.21
AudioX-MAF-MMDiT 0.75 0.94 3.15
ControlFoley 0.81 0.85 3.38
与工业系统Kling-Foley对比（TV2A任务）：
数据集模型 CLAP↑ IB↑ DeSync↓ IS↑
VGGSound-Test Kling-Foley 0.31 0.30 0.47 15.05
ControlFoley 0.36 0.32 0.42 22.08
Kling Audio-Eval Kling-Foley 0.37 0.22 0.61 6.86
ControlFoley 0.38 0.28 0.52 9.09

消融实验：
- 联合视觉编码：在TC-V2A任务中，相比仅使用CLIP，联合编码在冲突等级L1-subject下，IB从0.42降至0.37，CLAP从0.33升至0.36，证明其能更好抑制冲突视觉并保持文本控制。
- 参考音频控制：移除语义条件路径，Resemblyzer从0.81降至0.56，DeSync从0.85升至0.92；移除音色条件路径，Resemblyzer降至0.79。证明双路径缺一不可。
- REPA损失：移除REPA损失，CLAP从0.36降至0.34，KL从1.43升至1.53。将REPA应用于第24层（深层）或多模态块，性能均不如应用于第8层（浅层单模态块）。
用户研究：
- TV2A：ControlFoley在音视频语义对齐（MOS-S-AV: 4.29）、时间同步（MOS-T: 4.31）和音频质量（MOS-Q: 3.95）上均获得最高分。
- TC-V2A：ControlFoley在文本-音频语义对齐（MOS-S-AT: 3.94）上大幅领先第二名ThinkSound（2.94）。
- AC-V2A：ControlFoley在音色相似度（MOS-S-AA: 2.96）和时间同步（MOS-T: 3.59）上略优于CondFoleyGen。

模型	IB↓	CLAP↑
AudioX-MAF-MMDiT	0.86	0.86
MMAudio-L	0.39	0.38
ControlFoley	0.37	0.36

模型	Resemblyzer↑	DeSync↓	IS↑
CondFoleyGen	0.78	0.96	3.21
AudioX-MAF-MMDiT	0.75	0.94	3.15
ControlFoley	0.81	0.85	3.38

数据集	模型	CLAP↑	IB↑	DeSync↓	IS↑
VGGSound-Test	Kling-Foley	0.31	0.30	0.47	15.05
	ControlFoley	0.36	0.32	0.42	22.08
Kling Audio-Eval	Kling-Foley	0.37	0.22	0.61	6.86
	ControlFoley	0.38	0.28	0.52	9.09

⚖️ 评分理由

创新性：9.5/10 - 创新点非常扎实且具有针对性。联合视觉编码范式为解决多模态冲突提供了新思路；时间-音色解耦策略设计巧妙，直击AC-V2A任务的核心痛点；VGGSound-TVC基准的构建填补了领域空白，具有重要方法论价值。
实验充分性：9.0/10 - 实验极其全面。涵盖了TV2A、TC-V2A、AC-V2A三大任务，在多个数据集（包括自建基准）上进行评估。对比了包括SOTA和工业系统在内的众多基线。消融实验细致，验证了每个核心组件的有效性。用户研究进一步支撑了客观指标。
实用价值：9.0/10 - 直接面向影视、游戏、广告等内容创作中的可控音效生成需求。统一的框架能处理多种控制模态，实用性强。与工业系统对比显示了落地潜力。开源计划（代码、模型、数据集）将极大推动社区发展和应用。
灌水程度：2.0/10 - 论文内容紧凑，问题定义清晰，方法描述详细，实验设计严谨，结果说服力强。没有发现明显的冗余内容或夸大表述。创新点均建立在扎实的分析和实验之上。

🖼️ 图片与表格

图片保留建议：
- 图2（框架概览图）：保留。清晰展示了ControlFoley的整体架构，包括双分支视觉编码、参考音频双路径控制、MMDiT骨干和REPA损失，是理解论文方法的核心。
- 图3（CAV-MAE-ST编码器图）：保留。详细说明了所提出的时空音频-视觉编码器的结构和工作流程，是理解第一个创新点的关键。
- 图5（频谱图对比）：保留。直观展示了ControlFoley生成音频在语义对齐和质量上优于基线模型的效果。
- 图6（模态适应行为图）：保留。用曲线清晰展示了ControlFoley和基线模型在文本-视觉冲突增加时，IB和CLAP分数的变化趋势，有力证明了ControlFoley的文本控制优势。
- 图8（AC-V2A结果示例）：保留。展示了音频控制任务的生成结果，包括参考音频、视频和生成音频的频谱图，直观体现音色继承和同步效果。
- 图10（用户研究界面）：可保留。展示了主观评估的设置，增加了实验可信度。
- 其他图（如训练曲线、更多消融示例等）：可酌情省略，以节省篇幅。
关键表格数据转述：
- 表2（TV2A主结果）：已在上文“实验结果”部分完整列出关键数据。
- 表4（AC-V2A结果）：已在上文“实验结果”部分完整列出。
- 表5（与Kling-Foley对比）：已在上文“实验结果”部分完整列出。
- 表9（参考音频控制消融）：w/o semantic conditioning: Resemblyzer=0.56, DeSync=0.92; w/o timbre conditioning: Resemblyzer=0.79, DeSync=0.86; ours: Resemblyzer=0.81, DeSync=0.85。
- 表10（REPA损失消融）：w/o REPA loss: CLAP=0.34, KL=1.53; unimodal, 24th layer: CLAP=0.35, KL=1.45; multimodal, 8th layer: CLAP=0.36, KL=1.44; ours (unimodal, 8th layer): CLAP=0.36, KL=1.43。

← 返回 2026-04-19 论文速递

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📎 相关论文

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling