📄 AudioX: A Unified Framework for Anything-to-Audio Generation

#音频生成 #音频大模型 #多模态模型 #扩散模型 #数据集

7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Zeyue Tian (Hong Kong University of Science and Technology)
  • 通讯作者:Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology)
  • 作者列表:Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology)

💡 毒舌点评

本文的亮点在于构建了一个工程上非常扎实的统一框架,其设计的多模态自适应融合模块(MAF)有效解决了不同模态信号干扰的问题,并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于,尽管实验全面,但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入,对于“任何东西”(如图像、草图等)的泛化能力论证不足,更像一个“文本/视频/音频到音频”的强统一模型。

📌 核心摘要

本文旨在解决当前音频生成模型大多局限于单一模态输入(如仅文本或仅视频)和单一输出域(如音效或音乐)的问题,提出一个名为AudioX的统一框架,实现从多种模态条件(文本、视频、音频)生成高质量音频和音乐。方法核心是构建一个基于Diffusion Transformer (DiT)的生成骨干网络,并创新性地引入轻量级多模态自适应融合(MAF)模块,该模块通过门控和可学习查询的交叉注意力机制,自适应地加权和对齐不同模态的特征,再进行融合,以生成统一的条件嵌入来指导扩散过程。与已有方法相比,新在两点:1)提出了一个真正支持多模态混合条件输入、多任务统一生成的框架,而非针对单一任务的专用模型;2)设计并构建了IF-caps大规模高质量数据集(含超过700万样本),并通过结构化的两阶段标注流水线(先使用Gemini 2.5 Pro生成高质量注释,再使用Qwen2-Audio进行数据增强)提供了细粒度的监督信号。主要实验结果表明,AudioX在多个任务和基准上达到了顶尖或极具竞争力的性能,例如在T2A-bench指令跟随评测中,其类别准确率(Cat-acc)达34.2%,显著高于最强基线Make-An-Audio2的32.4%;在AudioTime评测中,其时间排序误差仅为0.34,远低于所有基线(均>0.7)。论文还发现了一个重要的“跨模态正则化效应”:提升文本监督的质量和细粒度可以减少对齐噪声,从而提升所有条件模态下的生成性能。其实际意义在于为自动化多媒体内容创作提供了强大且灵活的统一工具。主要局限性在于,尽管被称为“Anything-to-Audio”,但当前输入模态仍局限于文本、视频和音频,对于其他可能的模态(如图像、乐谱)的泛化性有待验证;此外,统一模型在处理所有任务时可能面临性能妥协,虽然实验证明其总体表现优异。

详细分析

01.模型架构

AudioX是一个端到端的扩散生成模型,其核心设计是统一处理多模态条件输入并生成高质量音频。

整体架构:如论文图4所示,该框架由三个主要部分组成:多模态编码器、多模态自适应融合(MAF)模块和扩散Transformer(DiT)骨干网络。

AudioX框架图

图4:AudioX整体架构图。左侧展示了从视频、文本、音频三种模态输入到生成音频的完整流程。右侧详细展开了核心的多模态自适应融合(MAF)模块的内部结构。

  1. 多模态编码器:对输入的视频Xv、文本Xt和音频Xa进行特征提取。

    • 视频:使用CLIP-ViT-B/32提取帧级视觉特征(5 fps),并使用Synchformer提取音视频同步特征(25 fps),两者相加得到视频特征Hv
    • 文本:使用T5-base编码器将文本转换为特征Ht
    • 音频:使用一个预训练的音频Autoencoder(来自Stable Audio Open)进行编码和解码,得到音频特征Ha
    • 缺失模态处理:训练时,若缺少视频或音频模态,则用零填充;若缺少文本模态,则用自然语言描述(如“Generate music for the video.”)替代。
  2. 多模态自适应融合(MAF)模块:这是本文的核心创新之一,旨在解决不同模态信号间的干扰问题,实现有效融合。其流程如下:

    • 门控(Gate):每个模态的初始特征(Hv, Ht, Ha)首先通过各自的门控网络,进行重加权,以抑制噪声并保留最有信息量的线索。
    • 交叉注意力融合:将门控后的特征拼接,然后由一组可学习查询(Learnable Queries)通过交叉注意力机制进行聚合。这些查询被组织成三个模态特定的子集,作为“专家”来评估和聚合来自不同数据流的信息。
    • 自注意力整合:一个自注意力层对聚合后的上下文进行整合,并通过残差连接将精炼后的信息更新回各自的模态路径。
    • 输出:最终得到校准后的各模态特征(˜Hv, ˜Ht, ˜Ha),将它们拼接形成统一的多模态条件嵌入Hc。这个嵌入将用于指导DiT的去噪过程。
  3. 扩散Transformer(DiT)骨干网络:模型采用预训练的DiT作为生成核心。在训练过程中,真实音频A被编码到潜在空间z。DiT网络εθ以噪声潜在状态zt、扩散时间步t和多模态条件嵌入Hc作为输入,预测所添加的噪声。训练目标是最小化预测噪声与真实噪声之间的均方误差。在推理时,模型从纯噪声开始,通过250步去噪,在分类器自由引导(scale=7.0)下生成音频。

关键设计选择与动机:选择DiT是因为其在高质量音频和音乐生成中表现出色。引入MAF模块的动机是直接的:当多个模态的信号同时输入时,简单拼接或求和会导致模态间干扰,MAF通过自适应加权和注意力机制,使模型能够动态地关注不同模态中最相关的信息,从而提升融合质量和生成可控性。

02.核心创新点

  1. 提出统一的多模态音频生成框架AudioX:

    • 局限:以往模型通常只支持单一条件模态(如文本到音频、视频到音频)或单一输出域(音效或音乐)。
    • 作用:AudioX通过DiT骨干和MAF模块,将文本、视频、音频三种条件统一建模,一个模型即可处理文本到音频、视频到音频、文本视频到音频、以及对应的音乐生成任务。
    • 收益:实现了真正的“一个模型,多种任务”,并展示了强大的指令跟随潜力。实验证明,其在大多数任务上达到或超过了专用模型的性能。
  2. 设计轻量级多模态自适应融合(MAF)模块:

    • 局限:简单的特征拼接或加权无法有效处理多模态信号间的复杂关系和干扰。
    • 作用:MAF通过门控机制筛选信息,通过可学习查询的交叉注意力实现跨模态信息交互与对齐,最后用自注意力整合。
    • 收益:消融实验(表4)表明,完整MAF(包含门控和查询)比去除任一组件或完全移除MAF的版本在几乎所有指标上(如KL、IS、FAD)表现更好,尤其是在需要精细控制的AudioTime基准上(顺序误差、持续时间误差、频率误差均最低),证实了其对于提升生成质量和指令跟随能力的关键作用。
  3. 构建大规模、高质量、细粒度的IF-caps数据集及两阶段标注流水线:

    • 局限:现有音频数据集多为任务特定、标注粗糙,缺乏支持统一多模态模型训练的多样化、高质量数据。
    • 作用:设计了一个包含约130万音频样本和570万音乐样本的IF-caps数据集。标注流水线分为两步:首先用强大的Gemini 2.5 Pro模型为每个片段生成包含全局描述、类别计数、声音事件检测(SED)时间戳、时间关系等结构化的高质量注释;然后用开源模型Qwen2-Audio基于这些注释进行大规模数据增强,生成多样化的文本描述。
    • 收益:该数据集提供了前所未有的监督粒度。消融实验(表3)显示,使用完整流水线(GeminiCap-aug)训练的模型,在所有任务(T2A, V2A, TV2A)和指令跟随指标(Cat-acc, Cnt-acc, Ord-acc)上均优于仅使用原始标签、其他数据集或单阶段生成注释的模型。论文还发现了重要的“跨模态正则化效应”:高质量的文本监督不仅提升了文本相关任务,也显著提升了视频到音频(V2A)任务的性能。

03.细节详述

  • 训练数据:

    • 数据集:主要使用IF-caps(126.8万音频,570万音乐片段),并辅以AudioCaps, WavCaps, VGGSound, AudioSet Strong, Greatest Hits, Private音乐数据集, MUCaps等。详见论文表A.1。
    • 来源:IF-caps基于公开的视频音频数据集(如VGGSound, AudioSet, Greatest Hits)构建。
    • 规模:总训练数据量巨大,音频部分约3524小时,音乐部分约15793小时(V2M数据集)。
    • 预处理:所有片段统一为10秒(音频/视频)或更长(音乐)。视频特征以5fps和25fps提取。
    • 数据增强:IF-caps的构建本身就是一种数据增强过程,通过Qwen2-Audio生成多样化的文本描述。具体增强策略见附录A.1.2中的示例(基于类别计数、SED时间戳、时间关系生成不同表述的文本)。
  • 损失函数:

    • 主要训练损失为扩散模型的去噪损失,即预测噪声与真实噪声之间的均方误差(MSE):min_θ E_{t,zt,ε} ||ε - εθ(zt, t, Hc)||₂²。论文中未提及其他辅助损失。
  • 训练策略:

    • 优化器:AdamW。
    • 学习率:基础学习率1e-5,权重衰减0.001。
    • 调度策略:使用指数预热(ramp-up)和衰减(decay)的调度器。
    • 批大小:48。
    • 训练时长:约4000 GPU小时(使用3个集群,每个集群8块NVIDIA H800 80GB GPU)。
    • 稳定性技巧:维护模型权重的指数移动平均(EMA)以提升推理稳定性。
    • 训练步数/轮数:论文未明确说明总训练步数或轮数。
  • 关键超参数:

    • 模型总参数量:2.4B,其中可训练参数1.1B。
    • MAF模块参数量:仅60M,凸显其轻量级。
    • DiT结构:24层,使用预训练模型。
    • 扩散步数:250步(推理时)。
    • 分类器自由引导尺度:7.0。
  • 训练硬件:3个NVIDIA H800 GPU集群(每集群80GB显存,8块GPU)。

  • 推理细节:

    • 解码策略:250步DDPM采样,使用分类器自由引导。
    • 温度、beam size:未说明(因为是扩散模型,通常不涉及自回归解码的这些参���)。
    • 流式设置:未提及。
    • 输入缺失模态处理:同训练时,用零或文本提示替代。
  • 正则化或稳定训练技巧:使用了权重的EMA。

04.实验结果

本文进行了极其全面的实验,覆盖多个任务和基准。以下列出关键结果。

主要性能对比(表1节选):

数据集方法任务KL↓IS↑FAD↓对齐度↑
AudioCapsAudioGenT2A1.3910.221.720.27
Tango 2T2A1.1110.373.200.36
Stable Audio OpenT2A2.0110.373.150.21
AudioXT2A1.2712.481.590.30
VGGSoundAudioLDM-2-LargeT2A2.1013.862.050.30
Stable Audio OpenT2A2.3614.452.600.33
AudioXT2A1.7419.581.330.33
MusicCapsMusicGenT2M1.432.244.550.18
TangoMusicT2M1.132.861.880.23
AudioXT2M0.963.551.530.24
VGGSoundFoleyCrafterV2A2.398.702.230.27
MMAudioV2A1.9714.952.040.35
AudioXV2A2.2112.601.280.26

结论:AudioX在T2A任务(尤其在VGGSound数据集上,IS高达19.58)、T2M任务(MusicCaps上KL和FAD均最优)上取得了SOTA或极具竞争力的结果。在V2A任务上,其FAD值(1.28)优于所有基线。

指令跟随能力评测(表2):

方法T2A-benchAudioTime
Cat-acc↑Cnt-acc↑Ord-acc↑TS-acc↑Ordering↓Duration↓Frequency↓Timestamp↑
Make-An-Audio232.404.0019.8018.800.763.401.420.56
Stable Audio Open31.209.806.0021.800.983.071.460.53
AudioX34.2012.4023.6028.200.341.300.740.81

结论:AudioX在需要精细控制的指令跟随评测中全面碾压所有基线。其在T2A-bench的所有指标(类别、计数、排序、时间戳准确率)上均取得最高分,在AudioTime上所有误差指标均最低,证明了其卓越的指令跟随能力。

综合性能对比与指令跟随评测结果

图1:综合性能对比。(a) 展示了AudioX与多个基线在多个基准上的Inception Score (IS) 对比,AudioX在多数任务上领先。(b) 展示了在指令跟随基准上的详细结果,AudioX优势明显。

消融实验关键结果(表3,表4):

  1. 数据消融(表3):使用完整流水线(GeminiCap-aug)训练的模型在几乎所有任务和指标上都优于其他数据源。例如,在T2A任务中,其IS为10.93,FAD为2.91,优于仅用原始标签(IS 7.59, FAD 6.02)。这验证了高质量、细粒度数据的重要性以及跨模态正则化效应(V2A任务性能也随之提升)。
  2. MAF模块消融(表4):完整的MAF模块(包含门控和查询)在KL、IS、FAD以及AudioTime的各项误差指标上均达到最佳。移除任一组件都会导致性能下降,证明了两个组件的必要性。

图7:数据消融实验结果。展示了使用不同文本监督方法训练模型的性能对比,GeminiCap-aug(本文方法)在各项指标上均表现最佳。

其他任务:论文在附录中展示了音频修复(Audio Inpainting)、音乐续写(Music Completion)和图像到音频(Image-to-audio)生成的实验结果,表明该统一模型在这些扩展任务上也具备良好性能。

05.评分理由

  • 学术质量:5.5/7:论文技术路线清晰(DiT + MAF),实验设计严谨且全面(多任务、多指标、用户研究、详尽消融),数据集构建方法有独创性和价值。创新点集中于模块设计(MAF)和数据工程(IF-caps),而非基础架构的颠覆性创新。实验结果充分证明了其方法的有效性,达到了声称的SOTA水平。
  • 选题价值:1.5/2:统一多模态音频生成是生成式AI领域的重要前沿方向,具有广阔的应用前景(如多媒体创作、游戏、辅助工具)。本文的工作对该方向的推进有明显贡献,对相关领域研究者和开发者有很高参考价值。
  • 开源与复现加成:0.5/1:论文明确承诺开源代码、模型和数据集,并提供了极为详尽的训练配置(硬件、超参数、优化器设置)和数据集构建细节,极大降低了复现门槛。这为后续研究和应用提供了坚实基础。

开源详情

根据论文内容总结如下:

  • 代码:论文承诺在发布时开源代码,项目主页为 https://zeyuet.github.io/AudioX/。当前未提供具体代码仓库链接。
  • 模型权重:论文承诺将提供预训练的模型检查点。
  • 数据集:IF-caps数据集将开源,并将包含为训练和测试统一模型而标注的新文本描述(见表A.2)。
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了极其详细的复现信息,包括:
    • 模型架构参数(2.4B参数,1.1B可训练)。
    • 训练硬件(3×8 H800 GPU,约4k GPU小时)。
    • 优化器设置(AdamW,lr=1e-5,weight decay=0.001)。
    • 学习率调度(指数预热和衰减)。
    • 批大小(48)。
    • 推理设置(250步,CFG scale=7.0)。
    • 数据集统计和处理流程(附录A.1)。
    • 评估指标和基准定义(附录A.2,A.3)。
  • 论文中引用的开源项目:
    • 骨干模型:Stable Audio Open(用于音频编码器和DiT预训练)。
    • 编码器:CLIP-ViT-B/32, Synchformer, T5-base。
    • 数据标注:Gemini 2.5 Pro, Qwen2-Audio。
    • 其他工具:AnimeGANv2(用于图像到音频实验)。

🔗 开源详情

根据论文内容总结如下:

  • 代码:论文承诺在发布时开源代码,项目主页为 https://zeyuet.github.io/AudioX/。当前未提供具体代码仓库链接。
  • 模型权重:论文承诺将提供预训练的模型检查点。
  • 数据集:IF-caps数据集将开源,并将包含为训练和测试统一模型而标注的新文本描述(见表A.2)。
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了极其详细的复现信息,包括:
    • 模型架构参数(2.4B参数,1.1B可训练)。
    • 训练硬件(3×8 H800 GPU,约4k GPU小时)。
    • 优化器设置(AdamW,lr=1e-5,weight decay=0.001)。
    • 学习率调度(指数预热和衰减)。
    • 批大小(48)。
    • 推理设置(250步,CFG scale=7.0)。
    • 数据集统计和处理流程(附录A.1)。
    • 评估指标和基准定义(附录A.2,A.3)。
  • 论文中引用的开源项目:
    • 骨干模型:Stable Audio Open(用于音频编码器和DiT预训练)。
    • 编码器:CLIP-ViT-B/32, Synchformer, T5-base。
    • 数据标注:Gemini 2.5 Pro, Qwen2-Audio。
    • 其他工具:AnimeGANv2(用于图像到音频实验)。

🏗️ 模型架构

AudioX是一个端到端的扩散生成模型,其核心设计是统一处理多模态条件输入并生成高质量音频。

整体架构:如论文图4所示,该框架由三个主要部分组成:多模态编码器、多模态自适应融合(MAF)模块和扩散Transformer(DiT)骨干网络。

图4:AudioX整体架构图。左侧展示了从视频、文本、音频三种模态输入到生成音频的完整流程。右侧详细展开了核心的多模态自适应融合(MAF)模块的内部结构。

  1. 多模态编码器:对输入的视频Xv、文本Xt和音频Xa进行特征提取。

    • 视频:使用CLIP-ViT-B/32提取帧级视觉特征(5 fps),并使用Synchformer提取音视频同步特征(25 fps),两者相加得到视频特征Hv
    • 文本:使用T5-base编码器将文本转换为特征Ht
    • 音频:使用一个预训练的音频Autoencoder(来自Stable Audio Open)进行编码和解码,得到音频特征Ha
    • 缺失模态处理:训练时,若缺少视频或音频模态,则用零填充;若缺少文本模态,则用自然语言描述(如“Generate music for the video.”)替代。
  2. 多模态自适应融合(MAF)模块:这是本文的核心创新之一,旨在解决不同模态信号间的干扰问题,实现有效融合。其流程如下:

    • 门控(Gate):每个模态的初始特征(Hv, Ht, Ha)首先通过各自的门控网络,进行重加权,以抑制噪声并保留最有信息量的线索。
    • 交叉注意力融合:将门控后的特征拼接,然后由一组可学习查询(Learnable Queries)通过交叉注意力机制进行聚合。这些查询被组织成三个模态特定的子集,作为“专家”来评估和聚合来自不同数据流的信息。
    • 自注意力整合:一个自注意力层对聚合后的上下文进行整合,并通过残差连接将精炼后的信息更新回各自的模态路径。
    • 输出:最终得到校准后的各模态特征(˜Hv, ˜Ht, ˜Ha),将它们拼接形成统一的多模态条件嵌入Hc。这个嵌入将用于指导DiT的去噪过程。
  3. 扩散Transformer(DiT)骨干网络:模型采用预训练的DiT作为生成核心。在训练过程中,真实音频A被编码到潜在空间z。DiT网络εθ以噪声潜在状态zt、扩散时间步t和多模态条件嵌入Hc作为输入,预测所添加的噪声。训练目标是最小化预测噪声与真实噪声之间的均方误差。在推理时,模型从纯噪声开始,通过250步去噪,在分类器自由引导(scale=7.0)下生成音频。

关键设计选择与动机:选择DiT是因为其在高质量音频和音乐生成中表现出色。引入MAF模块的动机是直接的:当多个模态的信号同时输入时,简单拼接或求和会导致模态间干扰,MAF通过自适应加权和注意力机制,使模型能够动态地关注不同模态中最相关的信息,从而提升融合质量和生成可控性。

💡 核心创新点

  1. 提出统一的多模态音频生成框架AudioX:

    • 局限:以往模型通常只支持单一条件模态(如文本到音频、视频到音频)或单一输出域(音效或音乐)。
    • 作用:AudioX通过DiT骨干和MAF模块,将文本、视频、音频三种条件统一建模,一个模型即可处理文本到音频、视频到音频、文本视频到音频、以及对应的音乐生成任务。
    • 收益:实现了真正的“一个模型,多种任务”,并展示了强大的指令跟随潜力。实验证明,其在大多数任务上达到或超过了专用模型的性能。
  2. 设计轻量级多模态自适应融合(MAF)模块:

    • 局限:简单的特征拼接或加权无法有效处理多模态信号间的复杂关系和干扰。
    • 作用:MAF通过门控机制筛选信息,通过可学习查询的交叉注意力实现跨模态信息交互与对齐,最后用自注意力整合。
    • 收益:消融实验(表4)表明,完整MAF(包含门控和查询)比去除任一组件或完全移除MAF的版本在几乎所有指标上(如KL、IS、FAD)表现更好,尤其是在需要精细控制的AudioTime基准上(顺序误差、持续时间误差、频率误差均最低),证实了其对于提升生成质量和指令跟随能力的关键作用。
  3. 构建大规模、高质量、细粒度的IF-caps数据集及两阶段标注流水线:

    • 局限:现有音频数据集多为任务特定、标注粗糙,缺乏支持统一多模态模型训练的多样化、高质量数据。
    • 作用:设计了一个包含约130万音频样本和570万音乐样本的IF-caps数据集。标注流水线分为两步:首先用强大的Gemini 2.5 Pro模型为每个片段生成包含全局描述、类别计数、声音事件检测(SED)时间戳、时间关系等结构化的高质量注释;然后用开源模型Qwen2-Audio基于这些注释进行大规模数据增强,生成多样化的文本描述。
    • 收益:该数据集提供了前所未有的监督粒度。消融实验(表3)显示,使用完整流水线(GeminiCap-aug)训练的模型,在所有任务(T2A, V2A, TV2A)和指令跟随指标(Cat-acc, Cnt-acc, Ord-acc)上均优于仅使用原始标签、其他数据集或单阶段生成注释的模型。论文还发现了重要的“跨模态正则化效应”:高质量的文本监督不仅提升了文本相关任务,也显著提升了视频到音频(V2A)任务的性能。

🔬 细节详述

  • 训练数据:

    • 数据集:主要使用IF-caps(126.8万音频,570万音乐片段),并辅以AudioCaps, WavCaps, VGGSound, AudioSet Strong, Greatest Hits, Private音乐数据集, MUCaps等。详见论文表A.1。
    • 来源:IF-caps基于公开的视频音频数据集(如VGGSound, AudioSet, Greatest Hits)构建。
    • 规模:总训练数据量巨大,音频部分约3524小时,音乐部分约15793小时(V2M数据集)。
    • 预处理:所有片段统一为10秒(音频/视频)或更长(音乐)。视频特征以5fps和25fps提取。
    • 数据增强:IF-caps的构建本身就是一种数据增强过程,通过Qwen2-Audio生成多样化的文本描述。具体增强策略见附录A.1.2中的示例(基于类别计数、SED时间戳、时间关系生成不同表述的文本)。
  • 损失函数:

    • 主要训练损失为扩散模型的去噪损失,即预测噪声与真实噪声之间的均方误差(MSE):min_θ E_{t,zt,ε} ||ε - εθ(zt, t, Hc)||₂²。论文中未提及其他辅助损失。
  • 训练策略:

    • 优化器:AdamW。
    • 学习率:基础学习率1e-5,权重衰减0.001。
    • 调度策略:使用指数预热(ramp-up)和衰减(decay)的调度器。
    • 批大小:48。
    • 训练时长:约4000 GPU小时(使用3个集群,每个集群8块NVIDIA H800 80GB GPU)。
    • 稳定性技巧:维护模型权重的指数移动平均(EMA)以提升推理稳定性。
    • 训练步数/轮数:论文未明确说明总训练步数或轮数。
  • 关键超参数:

    • 模型总参数量:2.4B,其中可训练参数1.1B。
    • MAF模块参数量:仅60M,凸显其轻量级。
    • DiT结构:24层,使用预训练模型。
    • 扩散步数:250步(推理时)。
    • 分类器自由引导尺度:7.0。
  • 训练硬件:3个NVIDIA H800 GPU集群(每集群80GB显存,8块GPU)。

  • 推理细节:

    • 解码策略:250步DDPM采样,使用分类器自由引导。
    • 温度、beam size:未说明(因为是扩散模型,通常不涉及自回归解码的这些参���)。
    • 流式设置:未提及。
    • 输入缺失模态处理:同训练时,用零或文本提示替代。
  • 正则化或稳定训练技巧:使用了权重的EMA。

📊 实验结果

本文进行了极其全面的实验,覆盖多个任务和基准。以下列出关键结果。

主要性能对比(表1节选):

数据集方法任务KL↓IS↑FAD↓对齐度↑
AudioCapsAudioGenT2A1.3910.221.720.27
Tango 2T2A1.1110.373.200.36
Stable Audio OpenT2A2.0110.373.150.21
AudioXT2A1.2712.481.590.30
VGGSoundAudioLDM-2-LargeT2A2.1013.862.050.30
Stable Audio OpenT2A2.3614.452.600.33
AudioXT2A1.7419.581.330.33
MusicCapsMusicGenT2M1.432.244.550.18
TangoMusicT2M1.132.861.880.23
AudioXT2M0.963.551.530.24
VGGSoundFoleyCrafterV2A2.398.702.230.27
MMAudioV2A1.9714.952.040.35
AudioXV2A2.2112.601.280.26

结论:AudioX在T2A任务(尤其在VGGSound数据集上,IS高达19.58)、T2M任务(MusicCaps上KL和FAD均最优)上取得了SOTA或极具竞争力的结果。在V2A任务上,其FAD值(1.28)优于所有基线。

指令跟随能力评测(表2):

方法T2A-benchAudioTime
Cat-acc↑Cnt-acc↑Ord-acc↑TS-acc↑Ordering↓Duration↓Frequency↓Timestamp↑
Make-An-Audio232.404.0019.8018.800.763.401.420.56
Stable Audio Open31.209.806.0021.800.983.071.460.53
AudioX34.2012.4023.6028.200.341.300.740.81

结论:AudioX在需要精细控制的指令跟随评测中全面碾压所有基线。其在T2A-bench的所有指标(类别、计数、排序、时间戳准确率)上均取得最高分,在AudioTime上所有误差指标均最低,证明了其卓越的指令跟随能力。

图1:综合性能对比。(a) 展示了AudioX与多个基线在多个基准上的Inception Score (IS) 对比,AudioX在多数任务上领先。(b) 展示了在指令跟随基准上的详细结果,AudioX优势明显。

消融实验关键结果(表3,表4):

  1. 数据消融(表3):使用完整流水线(GeminiCap-aug)训练的模型在几乎所有任务和指标上都优于其他数据源。例如,在T2A任务中,其IS为10.93,FAD为2.91,优于仅用原始标签(IS 7.59, FAD 6.02)。这验证了高质量、细粒度数据的重要性以及跨模态正则化效应(V2A任务性能也随之提升)。
  2. MAF模块消融(表4):完整的MAF模块(包含门控和查询)在KL、IS、FAD以及AudioTime的各项误差指标上均达到最佳。移除任一组件都会导致性能下降,证明了两个组件的必要性。

数据消融实验结果

图7:数据消融实验结果。展示了使用不同文本监督方法训练模型的性能对比,GeminiCap-aug(本文方法)在各项指标上均表现最佳。

其他任务:论文在附录中展示了音频修复(Audio Inpainting)、音乐续写(Music Completion)和图像到音频(Image-to-audio)生成的实验结果,表明该统一模型在这些扩展任务上也具备良好性能。

⚖️ 评分理由

  • 学术质量:5.5/7:论文技术路线清晰(DiT + MAF),实验设计严谨且全面(多任务、多指标、用户研究、详尽消融),数据集构建方法有独创性和价值。创新点集中于模块设计(MAF)和数据工程(IF-caps),而非基础架构的颠覆性创新。实验结果充分证明了其方法的有效性,达到了声称的SOTA水平。
  • 选题价值:1.5/2:统一多模态音频生成是生成式AI领域的重要前沿方向,具有广阔的应用前景(如多媒体创作、游戏、辅助工具)。本文的工作对该方向的推进有明显贡献,对相关领域研究者和开发者有很高参考价值。
  • 开源与复现加成:0.5/1:论文明确承诺开源代码、模型和数据集,并提供了极为详尽的训练配置(硬件、超参数、优化器设置)和数据集构建细节,极大降低了复现门槛。这为后续研究和应用提供了坚实基础。


← 返回 ICLR 2026 论文分析