📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

#音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型

7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Le Wang(中国矿业大学,徐州)
  • 通讯作者:未说明(论文中未明确标注通讯作者)
  • 作者列表:Le Wang(中国矿业大学)、Jun Wang(快手科技,Kling AI)、Chunyu Qiang(快手科技,Kling AI)、Feng Deng(快手科技,Kling AI)、Chen Zhang(快手科技,Kling AI)、Kun Gai(快手科技,Kling AI)

💡 毒舌点评

亮点:这篇论文的野心很大,试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成,并且通过全面的实验确实做到了在多个任务上刷榜,证明了其架构设计的有效性。 短板:然而,论文对视频输入的强依赖像一根“拐杖”,限制了其在无视频场景下的应用,而号称的“统一”框架在代码和模型完全黑箱的情况下,其宣称的优越性和可复现性都要打上一个问号。

📌 核心摘要

  1. 解决的问题:现有视频到音频(包括音效、语音、音乐)的生成方法大多任务特定、模型碎片化,且跨模态(如唇音同步)对齐效果不佳,限制了通用性和生成质量。
  2. 方法核心:提出AudioGen-Omni,一个基于多模态扩散变换器(MM-DiT)的统一框架。其核心是引入了“歌词-转录编码器”,将音素/字素映射为帧级稠密表示;并设计了“相位对齐各向异性位置注入(PAAPI)”,在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码,以实现精细的跨模态同步。
  3. 创新点:a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架;b) 提出了无需音素时长监督的歌词转录编码模块;c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同,它解冻了所有模态并采用掩码输入策略,增强了灵活性。
  4. 主要实验结果:在VGGSound音频生成测试集上,其FD指标(PaSST 58.77, PANNs 6.29)优于MMAudio等基线(见表1)。在LRS3/LRS2语音生成测试中,其UTMOS(3.982/3.842)和DNSMOS(3.782/3.767)得分甚至超过真实语音,WER也大幅降低(17.56%/17.75%)(见表2)。在说话人相似度(SECS)评估中,其GE2E和VoxSim分数均高于其他方法(见表3)。模型能在1.91秒内生成8秒音频。
  5. 实际意义:为多媒体内容创作提供了一个高效、高质量的统一音频生成工具,有望简化视频后期制作流程,增强虚拟人物、游戏、社交媒体的音频沉浸感。
  6. 主要局限性:模型依赖视频输入,当无视觉信息时应用受限;论文未开源代码和模型,限制了社区复现和二次开发;虽能生成歌曲,但对复杂音乐结构的控制能力未深入展示。

🏗️ 模型架构

AudioGen-Omni是一个端到端的多模态扩散变换器,旨在根据可选的视频和文本输入,生成同步的音频、语音或歌曲。

模型整体流程图 图1 (a) 模型整体架构图:展示了所有组件及其交互。左侧为编码器部分,包括冻结的视觉编码器、文本编码器(Flan-T5)、梅尔编码器,以及可训练的歌词转录编码器(LT-Encoder)和投影层。中间是核心的多模态变换器块(MM-DiT),处理来自视频(V)、文本(T)、转录/歌词(C)和音频(A)的特征。右侧是梅尔解码器和损失计算部分。缺失模态(如纯文本生成)使用学习到的嵌入替代。

完整输入输出流程:

  1. 输入编码:视频帧通过冻结的视觉编码器(如ViT-bigG)和时序对齐模块(Synchformer)得到帧级视觉特征。文本提示通过冻结的Flan-T5编码。转录/歌词文本通过可训练的“歌词-转录编码器”映射为密集的帧级表示。音频波形通过梅尔编码器编码为连续的潜在表示(如43Hz的潜在序列)。
  2. 特征投影与交互:所有模态的特征通过可训练的投影层进行维度对齐。然后输入多模态变换器块。
  3. 多模态变换器块:这是架构的核心。其内部采用“联合注意力”机制,将视频、音频、文本的查询(Q)、键(K)、值(V)拼接后进行缩放点积注意力,从而融合跨模态信息。同时,模型使用“全局条件”来调节网络。全局条件向量聚合了扩散时间步、音频时长嵌入、以及视觉和文本特征的平均池化结果。这个条件向量通过自适应层归一化(AdaLN)注入到每个变换器层。
  4. PAAPI机制:在联合注意力模块内,PAAPI选择性地对具有时序结构的模态(视觉、音频、对齐的转录文本)应用旋转位置编码(RoPE),而对非时序的模态(如全局文本描述)则保持其位置信息不变(各向同性)。这确保了不同模态在相位对齐的情况下共享位置先验,增强了唇音同步等精细对齐能力。
  5. 音频专用细化:经过多模态块后,特征会通过专门的音频单模态变换器块(类似FLUX设计)进一步细化,专注于音频信号的细节生成。
  6. 解码与损失:细化后的音频特征通过梅尔解码器重建为音频波形。训练时,模型采用条件流匹配(CFM)损失,学习从噪声到目标音频潜在表示的速度场。

MM-DiT块内部结构 图1 (b) 一个MM-DiT块的内部结构:详细展示了联合注意力、PAAPI(RoPE)、全局条件(通过AdaLN注入)以及卷积MLP(ConvMLP)等组件。可以看到视频(Vp)、转录文本(Cp)和全局文本(Tp)的特征如何通过拼接、加和以及条件调制参与到注意力计算中。

关键设计选择与动机:

  • 解冻所有模态并采用掩码输入:动机是避免“文本冻结”范式造成的语义锁定,让所有模态能在统一的潜在空间中灵活交互,更好地处理缺失输入。
  • 轻量级歌词-转录编码器:动机是提供一个不依赖外部音素时长预测器的端到端方案,直接将字符/音素序列转换为帧级表示,简化流程并支持多语言。
  • PAAPI:动机是解决多模态模型中不同模态位置信息异构性的问题,确保时序对齐只发生在应该对齐的模态之间,提高同步精度。
  • 混合使用MM-DiT和音频单模态块:动机是平衡多模态交互的需要和音频信号自身的精细建模需求。

💡 核心创新点

  1. 首个统一的音频/语音/歌曲多模态生成框架:不同于之前只处理音效、只处理语音或只处理音乐的专门模型,AudioGen-Omni通过统一的架构和训练,实现了从视频或文本生成所有类型的音频内容,提升了任务泛化能力。
  2. 无监督的帧级歌词-转录编码器:该模块无需预先的音素时长标注,通过统一的多语言分词(VoiceBPE)和卷积网络(ConvNeXt-V2),将文本序列直接映射到与视频/音频帧对齐的密集表示。这简化了多语言语音/歌曲生成的预处理流水线。
  3. 相位对齐各向异性位置注入(PAAPI):这是实现精细跨模态同步的关键技术。它在模型内部区分对待有时序结构(视频、音频、对齐文本)和无时序结构(描述性文本)的模态,选择性地应用旋转位置编码(RoPE),确保时序模态在注意力计算中拥有对齐的、相位一致的位置先验,从而显著提升了唇音同步(DeSync指标降低)和整体时序连贯性。

🔬 细节详述

  • 训练数据:
    • 视频-文本-音频数据集:VGGSound, Pandas70M(约4100小时), InterVid(约1900小时)。
    • 音频-文本数据集:AudioCaps(约128小时,人工标注), Clotho(约31小时,人工标注), LibriTTS(约585小时), LJ Speech(约24小时), WavCaps(约7600小时,自动标注)。
    • 歌曲-歌词数据集:从在线来源收集,总计约1000小时。
    • 预处理:使用Qwen-Omni自动生成描述性字幕;使用Whisper进行语音转录;使用FunASR提取帧级歌词及时间戳。
  • 损失函数:采用条件流匹配(Conditional Flow Matching, CFM)损失。具体为公式(1):L_CFM = E_{t,x0,x1,C} ||v_θ(t, C, x_t) - u(x_t | x0, x1)||^2。其中 v_θ 是模型预测的速度场,u 是真实流速度。在推理时,使用Euler积分从噪声 t=0.05 走到 t=1 得到音频潜在编码。
  • 训练策略:
    • 优化器:InverseLR,基础学习率1e-5,权重衰减0.001。
    • 学习率调度:包含指数预热和衰减阶段。
    • 批次大小:128。
    • 训练步数/时长:在8个NVIDIA H800(80GB)集群上训练,总计约3000 GPU小时。
    • 权重平均:为提高推理稳定性,使用了模型权重的指数移动平均(EMA)。
  • 关键超参数:
    • 模型大小:总参数15.5亿(1.55B),其中DiT模型为24层。
    • 编码器:文本使用T5-Base(768维);视觉使用ViT-bigG-14-QuickGELU(MetaCLIP),并经Synchformer时序对齐;音频使用基于Kling-Foley的Mel-VAE,将44.1kHz波形编码为43Hz的潜在序列(下采样因子1024)。
    • 歌词编码器:嵌入维度768,位置编码最大支持4000个位置。
  • 推理细节:
    • 采样步数:25步。
    • 引导方式:使用Classifier-Free Guidance,引导尺度为4.5。
    • 生成时长:模型设计为可生成最长10秒的音频。
  • 正则化/稳定技巧:训练中对缺失模态使用掩码和学习到的占位嵌入;长度可变训练通过为起始时间和持续时间学习每秒嵌入来实现;损失计算时使用基于长度的掩码排除填充帧。

📊 实验结果

表1:在VGGSound测试集上的音频生成方法评估

MethodParamsDistribution matching (FD)Audio quality (IS)Semantic align (IB-score)Temporal align (DeSync)Time(s)
FDPaSST↓FDPANNs↓KLPaSST↓
ReWaS [16]619M141.3817.542.828.5114.82
Seeing&Hearing [17]415M219.0124.582.308.5833.99
V-AURA [18]695M218.5014.802.0710.0827.64
VATT [19]131.8810.631.4111.9025.00
Frieren [20]159M106.1011.452.8612.2522.78
FoleyCrafter [21]1.22B140.0916.242.2315.6825.68
V2A-Mapper [22]229M84.578.402.5612.4722.58
MMAudio-L-44.1kHz [6]1.03B60.604.721.4017.4033.22
Ours1.55B58.776.291.5621.5229.26

关键结论:AudioGen-Omni在分布相似度(FD指标)上显著优于所有基线,在音频保真度(IS)和语义对齐(IB-score)上达到最佳或接近最佳水平,同时保持了较低的DeSync值和很快的生成速度(1.91秒生成8秒音频,论文中表格写为0.450s可能为笔误或不同计算方式,正文强调为1.91秒)。

表2:在LRS3和LRS2测试集上的语音生成方法评估

MethodStepsLRS3-TEDLRS2-BBC
UTMOS↑DNSMOS↑RMSEf0↓WER(%)↓UTMOS↑DNSMOS↑RMSEf0↓WER(%)↓
Ground Truth3.5452.5822.293.0132.2568.93
音频驱动说话人嵌入
SVTS [23]1.2831.86056.92984.981.3871.43453.47583.38
Intelligible [24]2.7022.39539.37729.602.3312.00041.23339.53
视频驱动说话人嵌入
LTBS [25]2.4172.36140.00684.082.2882.17443.65394.25
DiffV2S [4]10003.0582.55840.89341.072.9452.36344.41454.86
Faces2Voices [8]10003.9932.75938.92830.373.8812.55243.70239.05
Ours253.9823.78237.52517.563.8423.76742.90217.75

关键结论:AudioGen-Omni在感知质量(UTMOS, DNSMOS)和可懂度(WER)上全面超越了现有视频到语音(VTS)方法,甚至在LRS3上UTMOS和DNSMOS超过了真实语音(论文解释为生成的语音更干净),WER大幅降低。音高精度(RMSEf0)也得到改善。

表3:在LRS3测试集上的SECS评估结果

MethodLTBSDiffV2SFaces2Voices (1000)Ours (25)
GE2E↑0.6090.6210.6500.691
VoxSim↑0.3990.4330.4940.527

关键结论:在说话人相似度评估中,AudioGen-Omni在GE2E和VoxSim两个指标上均取得了最高分,表明其能更好地从视频中捕捉并合成具有目标说话人特征的语音。

图表分析: Mel谱图可视化 图2 (Mel-spectrogram visualization):该图对比了不同方法生成的语音Mel谱图与真实语音(GT)。可以清晰地看到,AudioGen-Omni(Ours(25))生成的谱图在基频(F0)的动态变化、谐波结构上与GT高度相似,而其他方法(如Face2Voice, DiffV2S)则显得模糊或失真。这直观证明了其在捕捉语音细节和表情韵律方面的优势。

⚖️ 评分理由

  • 学术质量(6.0/7):论文的创新性集中体现在统一框架和两个具体技术模块(LT-Encoder, PAAPI)上,思路清晰。实验部分非常充分,不仅在两个不同领域(音频生成、语音合成)的基准上进行了广泛对比,还提供了定性可视化,形成了完整的证据链,证明了方法的有效性和先进性(SOTA)。主要扣分项在于部分技术细节(如PAAPI在注意力中如何具体作用于Q/K/V)描述略显简略,以及由于缺乏开源,部分结论的复现和验证存在障碍。
  • 选题价值(1.5/2):该工作聚焦于解决多媒体内容生成中的一个核心且实际的痛点——音频生成的碎片化问题。其“统一”的愿景符合多模态生成模型的发展趋势,具有很强的前沿性和潜在的应用价值,对音频和语音领域的研究者及相关从业者有较高的参考意义。未获得满分是因为对视频输入的强依赖稍微限制了其通用性。
  • 开源与复现加成(0.0/1):论文提供了Demo链接,这对于展示模型能力和进行主观评估非常有价值。然而,完全未提及代码仓库、预训练模型权重的公开计划。虽然给出了部分训练细节(如优化器、GPU时间),但缺乏完整的超参数列表、数据处理脚本和模型配置,使得完全复现难度极高。因此,在此项上没有加分。

🔗 开源详情

  • 代码:论文中未提及代码仓库链接。
  • 模型权重:未提及公开预训练模型权重。
  • 数据集:论文提及了使用的多个数据集名称及大致规模,但未说明这些数据集是否由作者整理发布,或提供具体的下载/访问方式。部分数据集(如VGGSound, AudioCaps)是公开的,但作者处理后的版本未公开。
  • Demo:提供了在线演示页面链接:https://ciyou2.github.io/AudioGen-Omni/ 。
  • 复现材料:给出了模型总参数、层数、优化器、学习率、批次大小、GPU型号和训练时长等关键训练细节。但缺乏具体的网络层配置(如隐藏维度、注意力头数)、数据增强方法、评估脚本等,复现材料不充分。
  • 论文中引用的开源项目:论文明确引用了并依赖以下开源模型或工具:F5-TTS [14], ConvNeXt-V2 [10], Synchformer [15], ViT-bigG (MetaCLIP) [31], T5-Base [30], Kling-Foley [32], VQ-CTAP [33], Qwen-Omni [27], Whisper [28], FunASR [29], FLUX [12], SD3 [11]。

← 返回 ICASSP 2026 论文分析