Aurelius: Relation Aware Text-to-Audio Generation At Scale
📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhang He(微软研究院 Microsoft Research) 通讯作者:Yuhang He(微软研究院 Microsoft Research) 作者列表:Yuhang He(微软研究院 Microsoft Research),He Liang(未说明),Yash Jain(牛津大学计算机系),Andrew Markham(牛津大学计算机系),Vibhav Vineet(微软研究院 Microsoft Research) 💡 毒舌点评 这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型,而是系统性地构建了大规模、高质量的基准数据集(AudioEventSet, AudioRelSet)和评估体系,直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于,论文本身提出的AudioRelGen框架核心创新相对有限,更多是基于现有最强模型(如TangoFlux)的微调和评估,缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/yuhanghe01/Aurelius 模型权重:论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。 数据集:AudioEventSet和AudioRelSet已公开,可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo:未提及在线演示。 复现材料:提供了训练数据集构建策略、评估协议(MSR)、基线模型的推理设置(表III)以及代码。但关键训练超参数(微调/从头训练的学习率、batch size等)未在论文中说明。 论文中引用的开源项目:依赖的开源模型/工具包括:PANNs(用于特征提取和微调)、VGGish、Qwen2系列大语言模型(用于智能体实验)、各基准TTA模型的官方代码库(如AudioLDM, TangoFlux等)。数据来源包括freesound.org和FSD50K。 📌 核心摘要 问题:现有的文本到音频(TTA)生成模型在处理需要理解音频事件间复杂关系(如空间、时间、逻辑关系)的文本描述时能力严重不足,这限制了TTA技术向更复杂、更真实的应用场景发展。 方法核心:本文提出Aurelius框架,其核心是构建两个大规模、结构化的语料库:包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略,可系统性地生成海量的<text, audio>训练对,用于评估和提升模型的“关系感知”生成能力。 创新点:与之前工作(如RiTTA)相比,本文的新在于:a) 将事件和关系语料库规模提升了数量级(事件从~25到110,关系从11到100);b) 提出了一个更全面、可扩展的关系分类法(包括嵌套组合);c) 提供了基于解耦策略的、可大规模生成训练数据的流水线;d) 对多种主流TTA模型进行了前所未有的系统性基准测试。 主要实验结果:基准测试了9个主流TTA模型。结果显示,即使是最好的模型(AudioGen, mAMSR=2.22%; TangoFlux, mAMSR=1.77%),其在关系感知指标(Presence, Relation Correctness, Parsimony)上的表现也极差(均低于15%)。微调实验表明,在Aurelius数据集上微调能显著提升模型的关系建模能力(如TangoFlux的mAMSR从1.77%提升至5.58%)。具体关键结果见下表。 模型 参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表:零样本基准测试(上)与微调实验(下)关键结果对比 实际意义:本工作为“关系感知TTA”这一重要但被忽视的研究方向,首次提供了标准化的大规模基准数据集、评估协议和基线方法,系统地揭示了当前技术的瓶颈,为未来研究指明了方向(如需要设计能显式建模事件-关系依赖的架构)。 主要局限性:a) 论文主要贡献是构建基准和揭示问题,提出的AudioRelGen框架本身(解耦生成再混合)并非解决该问题的终极方案;b) 训练数据规模(100小时)虽然远超之前相关工作,但对于真正的大规模生成模型训练可能仍显不足;c) 关系评估依赖的自动检测模型(事件分类器、关系分类器)的性能上限,可能影响评估结果的绝对准确性。 🏗️ 模型架构 论文提出的AudioRelGen框架(图4)核心思想是解耦建模,其流程并非一个端到端的单一生成模型,而是一个数据生成与评估的范式: ...