📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

#音频生成 #多模态模型 #扩散模型 #基准测试

🔥 评分:9.2/10 | arxiv

👥 作者与机构

  • 第一作者:Jianxuan Yang(小米 MiLM Plus)
  • 通讯作者:Jian Luan(小米 MiLM Plus)
  • 其他作者:
    • Xinyue Guo(小米 MiLM Plus)
    • Zhi Cheng(小米 MiLM Plus,武汉大学)
    • Kai Wang(小米 MiLM Plus,武汉大学)
    • Lipan Zhang(小米 MiLM Plus)
    • Jinjie Hu(小米 MiLM Plus)
    • Qiang Ji(小米 MiLM Plus)
    • Yihua Cao(小米 MiLM Plus)
    • Yihao Meng(小米 MiLM Plus,武汉大学)
    • Zhaoyue Cui(小米 MiLM Plus,武汉大学)
    • Mengmei Liu(小米 MiLM Plus)
    • Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名)

💡 毒舌点评

亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。
槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。

📌 核心摘要

本文提出了ControlFoley,一个统一且可控的视频到音频生成框架,旨在解决现有方法在跨模态冲突下文本控制力弱、以及参考音频控制中音色与时间信息纠缠的问题。其核心贡献包括:1)提出联合视觉编码范式,结合CLIP和CAV-MAE-ST编码器,增强文本在语义冲突时的控制权威;2)设计时间-音色解耦策略,通过抑制参考音频中的时间信息、保留音色特征,实现精准的音色控制;3)采用模态鲁棒训练方案,通过随机模态丢弃和统一表示对齐(REPA)损失,确保模型在任意模态缺失下的稳定性能;4)构建了首个专门评估文本可控性的基准VGGSound-TVC,量化不同语义冲突程度下的控制效果。实验表明,ControlFoley在文本引导、文本控制和音频控制三个核心视频到音频任务上均达到最先进水平,尤其在跨模态冲突下展现出优越的可控性和同步性,并与工业级系统相比具有竞争力。

🏗️ 模型架构

ControlFoley的整体架构基于多模态扩散Transformer(MMDiT)。其完整输入输出流程如下:

  1. 输入:视频(V)、可选的文本描述(T)、可选的参考音频(A_r)。
  2. 视觉编码(双分支)
    • CLIP分支:使用预训练的CLIP视觉编码器提取视觉语义特征 z_v^CLIP,用于与文本特征对齐。
    • CAV-MAE-ST分支:这是一个专门设计的时空音频-视觉编码器。它将视频帧和对应的音频片段进行分词化,通过掩码重建任务(重建被掩码的视觉和音频token)进行预训练,以学习细粒度的时空对应关系。其输出特征 z_v^CAV 擅长捕捉运动模式和声画同步信息。
    • 融合:两个分支的输出通过线性投影后相加,得到最终的联合视觉表示 z_v^joint。这种设计在语义一致时(TV2A)利用CLIP增强协同,在语义冲突时(TC-V2A)利用CAV-MAE-ST特征缓解视觉主导。
  3. 文本编码:文本描述通过预训练的文本编码器(如CLIP的文本部分)得到文本特征 z_t
  4. 参考音频编码(双路径)
    • 语义条件路径:整个参考音频通过预训练的CLAP编码器得到全局音频嵌入,作为条件注入MMDiT的特定分支。该分支移除了位置编码并简化了时序建模模块(用MLP替代ConvMLP),以抑制时间信息,聚焦全局声学风格。
    • 音色条件路径:从参考音频中随机裁剪一个片段,通过预训练的音频StyleConditioner编码器提取音色表示,投影后作为全局条件 c_timbre 注入。
  5. 生成骨干(MMDiT):以视频潜在变量(通常为噪声)为起点,MMDiT通过一系列多模态和单模态Transformer块进行去噪。在多模态块中,音频潜在变量、视觉特征、文本特征、参考音频特征以及全局条件(音色、文本等)进行联合注意力计算,实现多条件融合。模型使用流匹配(Flow Matching)目标进行训练。
  6. 输出:最终去噪后的音频潜在变量通过VAE解码器重建为波形音频。

💡 核心创新点

  1. 联合视觉编码范式(解决模态冲突)

    • 是什么:并行使用CLIP(强语义对齐)和CAV-MAE-ST(强声画对齐)两个视觉编码器,融合其特征作为最终视觉条件。
    • 之前的方法:通常只使用CLIP或与之对齐的视觉特征。当文本与视频语义冲突时,由于CLIP空间中文本和视觉特征高度耦合,会导致“视觉主导”现象,文本控制失效。
    • 如何解决:CAV-MAE-ST编码器通过掩码重建任务学习到的特征,更关注于驱动声音产生的时空动态(如物体运动),而非高层语义。这为模型提供了与文本语义相对解耦的视觉线索,从而在冲突时能更好地平衡模态优先级,让文本指令“说得上话”。
    • 效果:在VGGSound-TVC基准��,ControlFoley在文本-视觉冲突增加时,能更主动地降低与视觉的一致性(IB分数下降更快),同时保持较高的文本对齐度(CLAP分数),证明了其更强的文本控制力。
  2. 时间-音色解耦控制策略(实现精准音色控制)

    • 是什么:在利用参考音频进行音色控制时,通过模型设计(移除位置编码、简化时序模块)和独立的音色编码器,显式地分离并抑制参考音频中的时间节奏信息,仅保留音色特征。
    • 之前的方法:如CondFoleyGen、MultiFoley等,其参考音频编码会同时包含音色和时间信息。当参考音频的节奏与视频不匹配时,会产生时间干扰,导致生成的音频同步性差或风格控制不精确。
    • 如何解决:双路径设计——语义条件路径提供去除了时序的全局声学上下文,音色条件路径提供纯净的音色嵌入。两者共同引导生成过程,确保音频继承参考音色,而时间结构严格跟随视频。
    • 效果:在Greatest Hits数据集的AC-V2A任务中,ControlFoley在音色相似度(Resemblyzer: 0.81)和时间同步性(DeSync: 0.85)上均优于专门模型CondFoleyGen和通用模型AudioX。
  3. 模态鲁棒训练与统一REPA对齐(确保多任务稳定性)

    • 是什么:训练时随机丢弃视觉、文本、参考音频模态,并引入统一表示对齐(REPA)损失,将扩散Transformer中间层的音频特征与所有可用条件的聚合特征进行对齐。
    • 之前的方法:模型往往过度依赖某一模态(如视觉),当该模态缺失或提供冲突信息时,性能急剧下降。缺乏针对多模态组合的鲁棒性训练。
    • 如何解决:随机模态丢弃迫使模型不过度依赖任何单一模态。REPA损失通过一个聚合的、自适应的条件目标(而非针对每个模态单独对齐),引导音频表示与任何可用的高层语义保持一致,增强了跨模态语义一致性。
    • 效果:使ControlFoley能够作为一个统一框架,灵活处理从单模态到多模态组合的各种生成任务(TV2A, TC-V2A, AC-V2A),并在所有任务上保持高性能。
  4. VGGSound-TVC基准(填补评估空白)

    • 是什么:首个专门用于评估文本控制能力的视频到音频基准,包含25,005个视频-文本对,其中文本被系统性地修改为从无冲突(L0)到强冲突(L3)的四个等级。
    • 之前的缺陷:现有数据集(如VGGSound)假设视频-文本语义一致,无法评估模型在冲突下的控制行为,导致“视觉主导”问题被掩盖。
    • 如何解决:利用Gemini 2.5 Pro生成与原始视频语义在不同程度上冲突的文本描述,同时保持声音的时间结构一致性,从而量化评估模型的模态适应能力。
    • 效果:为社区提供了标准化的评估协议,清晰地揭示了不同模型在跨模态冲突下的控制力差异,ControlFoley在此基准上表现最佳。

🔬 细节详述

  • 训练数据

    • CAV-MAE-ST预训练:VGGSound训练集,180K个10秒视频片段,309类。
    • ControlFoley训练
      • 音频-视觉-文本数据:VGGSound训练集(重复5倍)。
      • 音频-文本数据:AudioCaps, WavCaps, Clotho,总计约900K条音频。
      • 总数据规模约180K * 5 + 900K = 1.8M条数据。
    • 数据预处理:视频采样率4 fps,音频Mel频谱图参数:128个mel滤波器组,10ms帧移。参考音频在训练时使用真实目标音频,音色条件分支随机裁剪2-4秒片段。
  • 损失函数

    • CAV-MAE-ST预训练:对比损失(权重0.01)+ 掩码重建损失(L2范数,权重1)。
    • ControlFoley训练
      • 流匹配损失:标准扩散模型训练目标。
      • REPA损失:公式为 L_REPA = -cosine_similarity(Proj(h_audio), z_cond)。其中h_audio是第8个单模态DiT块的输出,z_cond是聚合的全局视觉、文本、音色条件特征。Proj是一个可学习的MLP投影层。
  • 训练策略

    • CAV-MAE-ST:学习率1e-4,批次大小160,训练约150轮,使用75%的token掩码率。
    • ControlFoley:学习率未明确给出具体数值,但提到使用标准设置。批次大小未明确。训练300,000次迭代。使用10%的概率随机丢弃每个模态输入(视觉、文本、参考音频)。
  • 关键超参数

    • 推理步数:25步。
    • 分类器自由引导尺度:4.5。
    • 输出音频采样率:44.1 kHz。
    • 模型规模:骨干包含18个多模态DiT块和36个单模态DiT块。
  • 训练硬件:GPU总计算能力176 TFLOPS(FP32精度)。具体型号和数量未明确。

  • 推理细节:采用流匹配的常微分方程求解器进行去噪,使用分类器自由引导来增强条件遵循度。

  • 数据增强/正则化:主要的正则化手段是随机模态丢弃。CAV-MAE-ST预训练中的掩码也是一种强大的自监督数据增强。

📊 实验结果

  • 主要指标对比表(关键数据)

    • TV2A任务(VGGSound-Test数据集)
      模型IB↑CLAP(LAION)↑CLAP(MS)↑DeSync↓IS(PANNs)↑KL(PANNs)↓
      MMAudio-L0.330.220.310.4517.361.66
      HunyuanVideo-Foley-XXL0.320.230.280.5515.262.02
      AudioX-MAF-MMDiT0.280.190.280.8915.832.02
      ControlFoley0.320.260.360.4222.081.71
    • TC-V2A任务(VGGSound-TVC,冲突等级L1)
      模型IB↓CLAP↑
      AudioX-MAF-MMDiT0.860.86
      MMAudio-L0.390.38
      ControlFoley0.370.36
    • AC-V2A任务(Greatest Hits数据集)
      模型Resemblyzer↑DeSync↓IS↑
      CondFoleyGen0.780.963.21
      AudioX-MAF-MMDiT0.750.943.15
      ControlFoley0.810.853.38
    • 与工业系统Kling-Foley对比(TV2A任务)
      数据集模型CLAP↑IB↑DeSync↓IS↑
      VGGSound-TestKling-Foley0.310.300.4715.05
      ControlFoley0.360.320.4222.08
      Kling Audio-EvalKling-Foley0.370.220.616.86
      ControlFoley0.380.280.529.09
  • 消融实验

    • 联合视觉编码:在TC-V2A任务中,相比仅使用CLIP,联合编码在冲突等级L1-subject下,IB从0.42降至0.37,CLAP从0.33升至0.36,证明其能更好抑制冲突视觉并保持文本控制。
    • 参考音频控制:移除语义条件路径,Resemblyzer从0.81降至0.56,DeSync从0.85升至0.92;移除音色条件路径,Resemblyzer降至0.79。证明双路径缺一不可。
    • REPA损失:移除REPA损失,CLAP从0.36降至0.34,KL从1.43升至1.53。将REPA应用于第24层(深层)或多模态块,性能均不如应用于第8层(浅层单模态块)。
  • 用户研究

    • TV2A:ControlFoley在音视频语义对齐(MOS-S-AV: 4.29)、时间同步(MOS-T: 4.31)和音频质量(MOS-Q: 3.95)上均获得最高分。
    • TC-V2A:ControlFoley在文本-音频语义对齐(MOS-S-AT: 3.94)上大幅领先第二名ThinkSound(2.94)。
    • AC-V2A:ControlFoley在音色相似度(MOS-S-AA: 2.96)和时间同步(MOS-T: 3.59)上略优于CondFoleyGen。

⚖️ 评分理由

  • 创新性:9.5/10 - 创新点非常扎实且具有针对性。联合视觉编码范式为解决多模态冲突提供了新思路;时间-音色解耦策略设计巧妙,直击AC-V2A任务的核心痛点;VGGSound-TVC基准的构建填补了领域空白,具有重要方法论价值。
  • 实验充分性:9.0/10 - 实验极其全面。涵盖了TV2A、TC-V2A、AC-V2A三大任务,在多个数据集(包括自建基准)上进行评估。对比了包括SOTA和工业系统在内的众多基线。消融实验细致,验证了每个核心组件的有效性。用户研究进一步支撑了客观指标。
  • 实用价值:9.0/10 - 直接面向影视、游戏、广告等内容创作中的可控音效生成需求。统一的框架能处理多种控制模态,实用性强。与工业系统对比显示了落地潜力。开源计划(代码、模型、数据集)将极大推动社区发展和应用。
  • 灌水程度:2.0/10 - 论文内容紧凑,问题定义清晰,方法描述详细,实验设计严谨,结果说服力强。没有发现明显的冗余内容或夸大表述。创新点均建立在扎实的分析和实验之上。

🔗 开源详情

  • 代码:论文中明确表示代码已开源,地址为:https://yjx-research.github.io/ControlFoley/ 。未提及具体框架,但基于描述可能使用PyTorch。
  • 模型权重:论文中明确表示预训练模型已开源,可通过上述主页获取。发布了ControlFoley的统一模型。
  • 数据集:论文中明确表示VGGSound-TVC基准数据集已开源,可通过上述主页获取。同时,训练使用的VGGSound等数据集均为公开数据集。
  • 预训练权重:CAV-MAE-ST编码器的预训练权重应已提供。ControlFoley模型基于MMDiT骨干从头训练。
  • 在线Demo:论文中明确提供了在线演示(demos)的链接。
  • 论文中引用的开源项目:论文依赖多个开源预训练模型,包括:CLIP、CLAP、Audio StyleConditioner、ImageBind、Synchformer、PANNs、PaSST、Resemblyzer等。

🖼️ 图片与表格

  • 图片保留建议
    • 图2(框架概览图):保留。清晰展示了ControlFoley的整体架构,包括双分支视觉编码、参考音频双路径控制、MMDiT骨干和REPA损失,是理解论文方法的核心。
    • 图3(CAV-MAE-ST编码器图):保留。详细说明了所提出的时空音频-视觉编码器的结构和工作流程,是理解第一个创新点的关键。
    • 图5(频谱图对比):保留。直观展示了ControlFoley生成音频在语义对齐和质量上优于基线模型的效果。
    • 图6(模态适应行为图):保留。用曲线清晰展示了ControlFoley和基线模型在文本-视觉冲突增加时,IB和CLAP分数的变化趋势,有力证明了ControlFoley的文本控制优势。
    • 图8(AC-V2A结果示例):保留。展示了音频控制任务的生成结果,包括参考音频、视频和生成音频的频谱图,直观体现音色继承和同步效果。
    • 图10(用户研究界面):可保留。展示了主观评估的设置,增加了实验可信度。
    • 其他图(如训练曲线、更多消融示例等):可酌情省略,以节省篇幅。
  • 关键表格数据转述
    • 表2(TV2A主结果):已在上文“实验结果”部分完整列出关键数据。
    • 表4(AC-V2A结果):已在上文“实验结果”部分完整列出。
    • 表5(与Kling-Foley对比):已在上文“实验结果”部分完整列出。
    • 表9(参考音频控制消融):w/o semantic conditioning: Resemblyzer=0.56, DeSync=0.92; w/o timbre conditioning: Resemblyzer=0.79, DeSync=0.86; ours: Resemblyzer=0.81, DeSync=0.85。
    • 表10(REPA损失消融):w/o REPA loss: CLAP=0.34, KL=1.53; unimodal, 24th layer: CLAP=0.35, KL=1.45; multimodal, 8th layer: CLAP=0.36, KL=1.44; ours (unimodal, 8th layer): CLAP=0.36, KL=1.43。

← 返回 2026-04-19 论文速递