📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling
#音频生成 #多模态模型 #扩散模型 #基准测试
🔥 评分:9.2/10 | arxiv
👥 作者与机构
- 第一作者:Jianxuan Yang(小米 MiLM Plus)
- 通讯作者:Jian Luan(小米 MiLM Plus)
- 其他作者:
- Xinyue Guo(小米 MiLM Plus)
- Zhi Cheng(小米 MiLM Plus,武汉大学)
- Kai Wang(小米 MiLM Plus,武汉大学)
- Lipan Zhang(小米 MiLM Plus)
- Jinjie Hu(小米 MiLM Plus)
- Qiang Ji(小米 MiLM Plus)
- Yihua Cao(小米 MiLM Plus)
- Yihao Meng(小米 MiLM Plus,武汉大学)
- Zhaoyue Cui(小米 MiLM Plus,武汉大学)
- Mengmei Liu(小米 MiLM Plus)
- Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名)
💡 毒舌点评
亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。
槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。
📌 核心摘要
本文提出了ControlFoley,一个统一且可控的视频到音频生成框架,旨在解决现有方法在跨模态冲突下文本控制力弱、以及参考音频控制中音色与时间信息纠缠的问题。其核心贡献包括:1)提出联合视觉编码范式,结合CLIP和CAV-MAE-ST编码器,增强文本在语义冲突时的控制权威;2)设计时间-音色解耦策略,通过抑制参考音频中的时间信息、保留音色特征,实现精准的音色控制;3)采用模态鲁棒训练方案,通过随机模态丢弃和统一表示对齐(REPA)损失,确保模型在任意模态缺失下的稳定性能;4)构建了首个专门评估文本可控性的基准VGGSound-TVC,量化不同语义冲突程度下的控制效果。实验表明,ControlFoley在文本引导、文本控制和音频控制三个核心视频到音频任务上均达到最先进水平,尤其在跨模态冲突下展现出优越的可控性和同步性,并与工业级系统相比具有竞争力。
🏗️ 模型架构
ControlFoley的整体架构基于多模态扩散Transformer(MMDiT)。其完整输入输出流程如下:
- 输入:视频(V)、可选的文本描述(T)、可选的参考音频(A_r)。
- 视觉编码(双分支):
- CLIP分支:使用预训练的CLIP视觉编码器提取视觉语义特征
z_v^CLIP,用于与文本特征对齐。 - CAV-MAE-ST分支:这是一个专门设计的时空音频-视觉编码器。它将视频帧和对应的音频片段进行分词化,通过掩码重建任务(重建被掩码的视觉和音频token)进行预训练,以学习细粒度的时空对应关系。其输出特征
z_v^CAV擅长捕捉运动模式和声画同步信息。 - 融合:两个分支的输出通过线性投影后相加,得到最终的联合视觉表示
z_v^joint。这种设计在语义一致时(TV2A)利用CLIP增强协同,在语义冲突时(TC-V2A)利用CAV-MAE-ST特征缓解视觉主导。
- CLIP分支:使用预训练的CLIP视觉编码器提取视觉语义特征
- 文本编码:文本描述通过预训练的文本编码器(如CLIP的文本部分)得到文本特征
z_t。 - 参考音频编码(双路径):
- 语义条件路径:整个参考音频通过预训练的CLAP编码器得到全局音频嵌入,作为条件注入MMDiT的特定分支。该分支移除了位置编码并简化了时序建模模块(用MLP替代ConvMLP),以抑制时间信息,聚焦全局声学风格。
- 音色条件路径:从参考音频中随机裁剪一个片段,通过预训练的音频StyleConditioner编码器提取音色表示,投影后作为全局条件
c_timbre注入。
- 生成骨干(MMDiT):以视频潜在变量(通常为噪声)为起点,MMDiT通过一系列多模态和单模态Transformer块进行去噪。在多模态块中,音频潜在变量、视觉特征、文本特征、参考音频特征以及全局条件(音色、文本等)进行联合注意力计算,实现多条件融合。模型使用流匹配(Flow Matching)目标进行训练。
- 输出:最终去噪后的音频潜在变量通过VAE解码器重建为波形音频。
💡 核心创新点
联合视觉编码范式(解决模态冲突):
- 是什么:并行使用CLIP(强语义对齐)和CAV-MAE-ST(强声画对齐)两个视觉编码器,融合其特征作为最终视觉条件。
- 之前的方法:通常只使用CLIP或与之对齐的视觉特征。当文本与视频语义冲突时,由于CLIP空间中文本和视觉特征高度耦合,会导致“视觉主导”现象,文本控制失效。
- 如何解决:CAV-MAE-ST编码器通过掩码重建任务学习到的特征,更关注于驱动声音产生的时空动态(如物体运动),而非高层语义。这为模型提供了与文本语义相对解耦的视觉线索,从而在冲突时能更好地平衡模态优先级,让文本指令“说得上话”。
- 效果:在VGGSound-TVC基准��,ControlFoley在文本-视觉冲突增加时,能更主动地降低与视觉的一致性(IB分数下降更快),同时保持较高的文本对齐度(CLAP分数),证明了其更强的文本控制力。
时间-音色解耦控制策略(实现精准音色控制):
- 是什么:在利用参考音频进行音色控制时,通过模型设计(移除位置编码、简化时序模块)和独立的音色编码器,显式地分离并抑制参考音频中的时间节奏信息,仅保留音色特征。
- 之前的方法:如CondFoleyGen、MultiFoley等,其参考音频编码会同时包含音色和时间信息。当参考音频的节奏与视频不匹配时,会产生时间干扰,导致生成的音频同步性差或风格控制不精确。
- 如何解决:双路径设计——语义条件路径提供去除了时序的全局声学上下文,音色条件路径提供纯净的音色嵌入。两者共同引导生成过程,确保音频继承参考音色,而时间结构严格跟随视频。
- 效果:在Greatest Hits数据集的AC-V2A任务中,ControlFoley在音色相似度(Resemblyzer: 0.81)和时间同步性(DeSync: 0.85)上均优于专门模型CondFoleyGen和通用模型AudioX。
模态鲁棒训练与统一REPA对齐(确保多任务稳定性):
- 是什么:训练时随机丢弃视觉、文本、参考音频模态,并引入统一表示对齐(REPA)损失,将扩散Transformer中间层的音频特征与所有可用条件的聚合特征进行对齐。
- 之前的方法:模型往往过度依赖某一模态(如视觉),当该模态缺失或提供冲突信息时,性能急剧下降。缺乏针对多模态组合的鲁棒性训练。
- 如何解决:随机模态丢弃迫使模型不过度依赖任何单一模态。REPA损失通过一个聚合的、自适应的条件目标(而非针对每个模态单独对齐),引导音频表示与任何可用的高层语义保持一致,增强了跨模态语义一致性。
- 效果:使ControlFoley能够作为一个统一框架,灵活处理从单模态到多模态组合的各种生成任务(TV2A, TC-V2A, AC-V2A),并在所有任务上保持高性能。
VGGSound-TVC基准(填补评估空白):
- 是什么:首个专门用于评估文本控制能力的视频到音频基准,包含25,005个视频-文本对,其中文本被系统性地修改为从无冲突(L0)到强冲突(L3)的四个等级。
- 之前的缺陷:现有数据集(如VGGSound)假设视频-文本语义一致,无法评估模型在冲突下的控制行为,导致“视觉主导”问题被掩盖。
- 如何解决:利用Gemini 2.5 Pro生成与原始视频语义在不同程度上冲突的文本描述,同时保持声音的时间结构一致性,从而量化评估模型的模态适应能力。
- 效果:为社区提供了标准化的评估协议,清晰地揭示了不同模型在跨模态冲突下的控制力差异,ControlFoley在此基准上表现最佳。
🔬 细节详述
训练数据:
- CAV-MAE-ST预训练:VGGSound训练集,180K个10秒视频片段,309类。
- ControlFoley训练:
- 音频-视觉-文本数据:VGGSound训练集(重复5倍)。
- 音频-文本数据:AudioCaps, WavCaps, Clotho,总计约900K条音频。
- 总数据规模约180K * 5 + 900K = 1.8M条数据。
- 数据预处理:视频采样率4 fps,音频Mel频谱图参数:128个mel滤波器组,10ms帧移。参考音频在训练时使用真实目标音频,音色条件分支随机裁剪2-4秒片段。
损失函数:
- CAV-MAE-ST预训练:对比损失(权重0.01)+ 掩码重建损失(L2范数,权重1)。
- ControlFoley训练:
- 流匹配损失:标准扩散模型训练目标。
- REPA损失:公式为
L_REPA = -cosine_similarity(Proj(h_audio), z_cond)。其中h_audio是第8个单模态DiT块的输出,z_cond是聚合的全局视觉、文本、音色条件特征。Proj是一个可学习的MLP投影层。
训练策略:
- CAV-MAE-ST:学习率1e-4,批次大小160,训练约150轮,使用75%的token掩码率。
- ControlFoley:学习率未明确给出具体数值,但提到使用标准设置。批次大小未明确。训练300,000次迭代。使用10%的概率随机丢弃每个模态输入(视觉、文本、参考音频)。
关键超参数:
- 推理步数:25步。
- 分类器自由引导尺度:4.5。
- 输出音频采样率:44.1 kHz。
- 模型规模:骨干包含18个多模态DiT块和36个单模态DiT块。
训练硬件:GPU总计算能力176 TFLOPS(FP32精度)。具体型号和数量未明确。
推理细节:采用流匹配的常微分方程求解器进行去噪,使用分类器自由引导来增强条件遵循度。
数据增强/正则化:主要的正则化手段是随机模态丢弃。CAV-MAE-ST预训练中的掩码也是一种强大的自监督数据增强。
📊 实验结果
主要指标对比表(关键数据):
- TV2A任务(VGGSound-Test数据集):
模型 IB↑ CLAP(LAION)↑ CLAP(MS)↑ DeSync↓ IS(PANNs)↑ KL(PANNs)↓ MMAudio-L 0.33 0.22 0.31 0.45 17.36 1.66 HunyuanVideo-Foley-XXL 0.32 0.23 0.28 0.55 15.26 2.02 AudioX-MAF-MMDiT 0.28 0.19 0.28 0.89 15.83 2.02 ControlFoley 0.32 0.26 0.36 0.42 22.08 1.71 - TC-V2A任务(VGGSound-TVC,冲突等级L1):
模型 IB↓ CLAP↑ AudioX-MAF-MMDiT 0.86 0.86 MMAudio-L 0.39 0.38 ControlFoley 0.37 0.36 - AC-V2A任务(Greatest Hits数据集):
模型 Resemblyzer↑ DeSync↓ IS↑ CondFoleyGen 0.78 0.96 3.21 AudioX-MAF-MMDiT 0.75 0.94 3.15 ControlFoley 0.81 0.85 3.38 - 与工业系统Kling-Foley对比(TV2A任务):
数据集 模型 CLAP↑ IB↑ DeSync↓ IS↑ VGGSound-Test Kling-Foley 0.31 0.30 0.47 15.05 ControlFoley 0.36 0.32 0.42 22.08 Kling Audio-Eval Kling-Foley 0.37 0.22 0.61 6.86 ControlFoley 0.38 0.28 0.52 9.09
- TV2A任务(VGGSound-Test数据集):
消融实验:
- 联合视觉编码:在TC-V2A任务中,相比仅使用CLIP,联合编码在冲突等级L1-subject下,IB从0.42降至0.37,CLAP从0.33升至0.36,证明其能更好抑制冲突视觉并保持文本控制。
- 参考音频控制:移除语义条件路径,Resemblyzer从0.81降至0.56,DeSync从0.85升至0.92;移除音色条件路径,Resemblyzer降至0.79。证明双路径缺一不可。
- REPA损失:移除REPA损失,CLAP从0.36降至0.34,KL从1.43升至1.53。将REPA应用于第24层(深层)或多模态块,性能均不如应用于第8层(浅层单模态块)。
用户研究:
- TV2A:ControlFoley在音视频语义对齐(MOS-S-AV: 4.29)、时间同步(MOS-T: 4.31)和音频质量(MOS-Q: 3.95)上均获得最高分。
- TC-V2A:ControlFoley在文本-音频语义对齐(MOS-S-AT: 3.94)上大幅领先第二名ThinkSound(2.94)。
- AC-V2A:ControlFoley在音色相似度(MOS-S-AA: 2.96)和时间同步(MOS-T: 3.59)上略优于CondFoleyGen。
⚖️ 评分理由
- 创新性:9.5/10 - 创新点非常扎实且具有针对性。联合视觉编码范式为解决多模态冲突提供了新思路;时间-音色解耦策略设计巧妙,直击AC-V2A任务的核心痛点;VGGSound-TVC基准的构建填补了领域空白,具有重要方法论价值。
- 实验充分性:9.0/10 - 实验极其全面。涵盖了TV2A、TC-V2A、AC-V2A三大任务,在多个数据集(包括自建基准)上进行评估。对比了包括SOTA和工业系统在内的众多基线。消融实验细致,验证了每个核心组件的有效性。用户研究进一步支撑了客观指标。
- 实用价值:9.0/10 - 直接面向影视、游戏、广告等内容创作中的可控音效生成需求。统一的框架能处理多种控制模态,实用性强。与工业系统对比显示了落地潜力。开源计划(代码、模型、数据集)将极大推动社区发展和应用。
- 灌水程度:2.0/10 - 论文内容紧凑,问题定义清晰,方法描述详细,实验设计严谨,结果说服力强。没有发现明显的冗余内容或夸大表述。创新点均建立在扎实的分析和实验之上。
🔗 开源详情
- 代码:论文中明确表示代码已开源,地址为:https://yjx-research.github.io/ControlFoley/ 。未提及具体框架,但基于描述可能使用PyTorch。
- 模型权重:论文中明确表示预训练模型已开源,可通过上述主页获取。发布了ControlFoley的统一模型。
- 数据集:论文中明确表示VGGSound-TVC基准数据集已开源,可通过上述主页获取。同时,训练使用的VGGSound等数据集均为公开数据集。
- 预训练权重:CAV-MAE-ST编码器的预训练权重应已提供。ControlFoley模型基于MMDiT骨干从头训练。
- 在线Demo:论文中明确提供了在线演示(demos)的链接。
- 论文中引用的开源项目:论文依赖多个开源预训练模型,包括:CLIP、CLAP、Audio StyleConditioner、ImageBind、Synchformer、PANNs、PaSST、Resemblyzer等。
🖼️ 图片与表格
- 图片保留建议:
- 图2(框架概览图):保留。清晰展示了ControlFoley的整体架构,包括双分支视觉编码、参考音频双路径控制、MMDiT骨干和REPA损失,是理解论文方法的核心。
- 图3(CAV-MAE-ST编码器图):保留。详细说明了所提出的时空音频-视觉编码器的结构和工作流程,是理解第一个创新点的关键。
- 图5(频谱图对比):保留。直观展示了ControlFoley生成音频在语义对齐和质量上优于基线模型的效果。
- 图6(模态适应行为图):保留。用曲线清晰展示了ControlFoley和基线模型在文本-视觉冲突增加时,IB和CLAP分数的变化趋势,有力证明了ControlFoley的文本控制优势。
- 图8(AC-V2A结果示例):保留。展示了音频控制任务的生成结果,包括参考音频、视频和生成音频的频谱图,直观体现音色继承和同步效果。
- 图10(用户研究界面):可保留。展示了主观评估的设置,增加了实验可信度。
- 其他图(如训练曲线、更多消融示例等):可酌情省略,以节省篇幅。
- 关键表格数据转述:
- 表2(TV2A主结果):已在上文“实验结果”部分完整列出关键数据。
- 表4(AC-V2A结果):已在上文“实验结果”部分完整列出。
- 表5(与Kling-Foley对比):已在上文“实验结果”部分完整列出。
- 表9(参考音频控制消融):w/o semantic conditioning: Resemblyzer=0.56, DeSync=0.92; w/o timbre conditioning: Resemblyzer=0.79, DeSync=0.86; ours: Resemblyzer=0.81, DeSync=0.85。
- 表10(REPA损失消融):w/o REPA loss: CLAP=0.34, KL=1.53; unimodal, 24th layer: CLAP=0.35, KL=1.45; multimodal, 8th layer: CLAP=0.36, KL=1.44; ours (unimodal, 8th layer): CLAP=0.36, KL=1.43。