ICLR 2026 - 音频生成

共 9 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	PrismAudio: Decomposed Chain-of-Thought and Multi-dimensiona	9.0分	前10%
🥈	SCRAPL: Scattering Transform with Random Paths for Machine L	8.5分	前25%
🥉	UALM: Unified Audio Language Model for Understanding, Genera	8.5分	前25%
4.	Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution	8.0分	前25%
5.	Aurelius: Relation Aware Text-to-Audio Generation At Scale	8.0分	前25%
6.	AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis wi	8.0分	前25%
7.	TangoFlux: Super Fast and Faithful Text to Audio Generation	8.0分	前25%
8.	LayerSync: Self-aligning Intermediate Layers	7.5分	前25%
9.	AudioX: A Unified Framework for Anything-to-Audio Generation	7.5分	前25%

📋 论文详情

🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配

👥 作者与机构

第一作者：Huadai Liu（香港科技大学; 阿里巴巴通义团队）
通讯作者：Wei Xue（香港科技大学）
作者列表：Huadai Liu（香港科技大学; 阿里巴巴通义团队）、Kaicheng Luo（阿里巴巴通义团队）、Wen Wang（阿里巴巴通义团队）、Qian Chen（阿里巴巴通义团队）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴通义团队）、Jieping Ye（阿里巴巴通义团队）、Wei Xue（香港科技大学）

💡 毒舌点评

亮点：论文首次将强化学习与分解式思维链（CoT）相结合，应用于视频到音频生成，巧妙地将一个复杂的多目标优化问题分解为四个可解释、可优化的维度，并提供了高效训练算法（Fast-GRPO）和高质量评测基准（AudioCanvas）。短板：该框架高度依赖一个强大的多模态语言模型（如VideoLLaMA2）来生成高质量的CoT训练数据，且音频基础模型本身也采用了多种现有先进组件（如VideoPrism、T5-Gemma），其“从零到一”的原创性贡献相对有限。

🔗 开源详情

代码：论文承诺将公开完整代码，但未提供具体仓库链接。
模型权重：论文承诺将公开所有模型权重。
数据集：论文承诺将公开自建的AudioCanvas基准测试集。
Demo：论文中未提及在线演示链接。
复现材料：论文提供了非常详细的附录，包括训练细节、超参数、资源需求、CoT生成Prompt等，复现信息充分。
论文中引用的开源项目：依赖的开源项目/模型包括：Stability AI的VAE、VideoPrism、T5-Gemma、VideoLLaMA2、MS-CLAP、Synchformer、Meta Audiobox Aesthetics、StereoCRW、Gemini 2.5 Pro（用于数据生成）。

📌 核心摘要

本文针对视频到音频（V2A）生成任务中存在的“目标纠缠”（语义、时序、美学、空间等目标相互冲突）和缺乏人类偏好对齐的问题，提出了PrismAudio框架。其核心方法是将单一的推理路径分解为四个专门的CoT模块（语义、时序、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与现有方法相比，新在：1）首次在V2A中整合分解CoT与多维RL；2）提出Fast-GRPO算法，通过混合ODE-SDE采样大幅降低训练开销；3）构建了更严谨的AudioCanvas基准测试集（包含300类单事件和501个多事件场景）。实验结果表明，在VGGSound测试集上，PrismAudio在语义一致性（CLAP: 0.47 vs. 0.43）、时序同步性（DeSync: 0.41 vs. 0.55）和空间准确性（CRW: 7.72 vs. 13.47）等指标上均优于此前SOTA的ThinkSound，并在主观评测中获得最高MOS分数。其实际意义在于为V2A生成提供了一个可解释、可精细控制且对齐人类偏好的新范式。主要局限性在于训练过程依赖LLM生成的CoT数据和多阶段训练，计算成本较高。

🥈 SCRAPL: Scattering Transform with Random Paths for Machine Learning

🔥 8.5/10 | 前25% | #音频生成 | #时频分析 | #损失函数 #优化算法

👥 作者与机构

第一作者：Christopher Mitcheltree (伦敦玛丽女王大学数字音乐中心)
通讯作者：未明确指定。根据作者列表和惯例，通常为最后作者或通讯作者列表，论文中为Vincent Lostanlen (Nantes Université, LS2N) 和 Mathieu Lagrange (Nantes Université, LS2N)。
作者列表：Christopher Mitcheltree（伦敦玛丽女王大学数字音乐中心）、Vincent Lostanlen（Nantes Université, LS2N）、Emmanouil Benetos（伦敦玛丽女王大学数字音乐中心）、Mathieu Lagrange（Nantes Université, LS2N）

💡 毒舌点评

亮点：论文精准地解决了“感知损失函数计算太贵”这一工程痛点，通过巧妙的随机采样与优化技巧，在速度和精度之间找到了一个令人满意的平衡点，使得JTFS这类优质但昂贵的损失函数能够真正用于模型训练。短板：方法对散射路径的采样策略（尤其是低频路径）较为粗放，在TR-808实验中表现出对音频衰减部分建模能力的显著下降，暗示其对长尾、稀疏信息路径的处理策略有待进一步优化。

🔗 开源详情

代码：论文明确指出代码、音频样本和配置文件已发布，并提供了Python包SCRAPL。链接为：https://christhetree.github.io/scrapl/。
模型权重：论文中未提及公开预训练模型权重。
数据集：TR-808任务使用了公开数据集（Samples from Mars TR-808），但论文未提供其独立下载链接。颗粒和啁啾合成器的数据由合成器程序动态生成。
Demo：提供了配套网站展示音频样本：https://christhetree.github.io/scrapl/。
复现材料：提供了完整的训练细节、超参数（附录E）、配置文件和复现说明。
引用的开源项目：论文未明确列出依赖的开源工具/模型库，但代码实现可能依赖PyTorch、nnAudio（CQT工具）等。

📌 核心摘要

这篇论文针对小波散射变换（尤其是联合时频散射变换，JTFS）作为神经网络损失函数时计算成本过高的问题，提出了SCRAPL（Scattering with Random Paths for Learning）。其核心思想是通过在每个训练步骤中随机采样少量（通常为一个）散射路径来近似全路径损失的梯度，从而将计算复杂度从与路径数P成正比降低到常数级。为稳定这一随机近似过程，作者提出了三项技术创新：1）路径自适应矩估计（P-Adam）；2）路径随机平均梯度加速法（P-SAGA）；3）基于合成器参数敏感性的θ-重要性采样（θ-IS）初始化策略。实验在三个无监督声音匹配任务（颗粒合成器、啁啾合成器、Roland TR-808鼓机）上进行。在颗粒合成任务中，SCRAPL在参数估计误差上仅比全路径JTFS高约1.5倍（65.7‰ vs. 42.4‰），但计算成本降低了约25倍（89.8ms vs. 1730ms），达到了帕累托最优（见图1）。在更复杂的TR-808鼓机匹配中，SCRAPL能稳定地保持声音的瞬态特征，即使在输入音频未对齐（meso设置）时也优于多尺度谱损失（MSS）。本文的主要贡献在于提供了一个实用且开源的框架，使得具有感知保证的散射变换损失能高效地应用于音频生成模型的训练，其局限性在于对部分音频特征（如衰减）的采样代表性不足。

🥉 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

🔥 8.5/10 | 前25% | #音频生成 | #自回归模型 | #统一音频模型 #音频问答

👥 作者与机构

第一作者：Jinchuan Tian（卡内基梅隆大学，NVIDIA）
通讯作者：未明确标注，论文指出所有作者贡献相等（Equal Contribution）
作者列表：
- Jinchuan Tian（卡内基梅隆大学，NVIDIA）
- Sang-gil Lee（NVIDIA）
- Zhifeng Kong（NVIDIA）
- Sreyan Ghosh（NVIDIA，马里兰大学）
- Arushi Goel（NVIDIA）
- Chao-Han Huck Yang（NVIDIA）
- Wenliang Dai（NVIDIA）
- Zihan Liu（NVIDIA）
- Hanrong Ye（NVIDIA）
- Shinji Watanabe（卡内基梅隆大学）
- Mohammad Shoeybi（NVIDIA）
- Bryan Catanzaro（NVIDIA）
- Rafael Valle（NVIDIA）
- Wei Ping（NVIDIA）

💡 毒舌点评

亮点在于首次系统性地证明了一个基于自回归语言模型的音频模型，可以通过数据缩放和特定技巧（如CFG和DPO）在生成质量上追平甚至超越扩散模型，并进一步将其扩展为能进行文本-音频联合推理的统一模型，技术路线清晰且有效。短板则在于其宣称的“统一”模型，其核心的音频理解数据集（AF3）和大规模生成数据（30M）并未公开，这使得“统一训练”和“匹配专用模型性能”的结论在独立复现层面打了折扣，更像一个强大的NVIDIA内部能力展示。

🔗 开源详情

代码：提供官方GitHub仓库链接：https://github.com/NVIDIA/audio-intelligence/tree/main/UALM。
模型权重：论文未提及公开预训练或后训练的模型权重。
数据集：论文未提及公开其使用的30M音频生成数据集或用于UALM-Reason后训练的富描述数据集。
Demo：提供在线演示网页：https://research.nvidia.com/labs/adlr/UALM。
复现材料：论文在附录中详细提供了预训练、后训练及推理的所有超参数配置（表5、6、7），并说明了代码库，为复现提供了清晰的路线图。
论文中引用的开源项目： Qwen2.5 LLM， X-codec， BigVGAN， LAION-CLAP， OpenL3， PaSST， PANNs， AudioBox-Aesthetics， Stable-Audio-Open， ETTA， Audio Flamingo 3等。

📌 核心摘要

该论文旨在解决音频领域中理解、生成与推理任务相互割裂的问题。其方法核心是构建一个统一的音频语言模型（UALM），该模型基于一个预训练的文本LLM，并扩展了音频输入和输出能力。论文首先通过UALM-Gen证明了自回归语言模型在大规模数据（30M样本）、分类器自由引导（CFG）和直接偏好优化（DPO）等技术的支持下，其文本到音频生成质量可达到与最先进扩散模型相当的水平。接着，通过精心设计的数据混合比例和模态对齐训练策略，将理解、生成和文本推理任务统一到单个UALM模型中，并在各项任务上匹配了专用SOTA模型的性能。最后，提出了UALM-Reason，通过引入“富描述”作为中间表示，并设计了丰富化、对话和自我反思等多模态思维链，首次在音频研究中实现了涉及文本和音频的跨模态生成推理。实验结果表明，统一的UALM在音频生成（如AudioCaps数据集FD=65.87，CL=0.62）、音频理解（MMAU均值74.1%）和文本推理任务上均表现优异。其意义在于为构建具备感知、创造与反思能力的通用音频智能体提供了可行的架构和训练范式。主要局限性在于其依赖的大规模合成数据集未公开，且“富描述”的质量评估方法有待完善。

4. Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #GAN #少样本生成

👥 作者与机构

第一作者：Zengwei Yao（Xiaomi Corp., Beijing, China）
通讯作者：Daniel Povey（dpovey@xiaomi.com，Xiaomi Corp., Beijing, China）
作者列表：Zengwei Yao（Xiaomi Corp.）、Wei Kang（Xiaomi Corp.）、Han Zhu（Xiaomi Corp.）、Liyong Guo（Xiaomi Corp.）、Lingxuan Ye（Xiaomi Corp.）、Fangjun Kuang（Xiaomi Corp.）、Weiji Zhuang（Xiaomi Corp.）、Zhaoqing Li（Xiaomi Corp.）、Zhifeng Han（Xiaomi Corp.）、Long Lin（Xiaomi Corp.）、Daniel Povey（Xiaomi Corp.）

💡 毒舌点评

这篇论文巧妙地将Flow Matching的稳定训练与GAN的精细生成结合，提出了一种两阶段训练范式，成功实现了少步甚至一步的高质量音频生成，解决了推理速度与生成质量难以兼得的核心矛盾。但多分支网络结构增加了模型复杂度和实现难度，且论文主要验证语音波形生成，其对非语音、复杂环境音频的泛化优势并未充分体现。

🔗 开源详情

代码：提供代码仓库链接：https://github.com/k2-fsa/Flow2GAN。
模型权重：提供预训练检查点（checkpoints），在代码仓库中可用。
数据集：实验所用数据集（LibriTTS， Common Voice等）均为公开数据集。
Demo：提供在线演示样例：https://flow2gan.github.io。
复现材料：论文在5.1节和附录A.3中提供了详尽的训练细节、模型配置（表10）、数据预处理信息、评估指标和基线模型设置，复现指导非常充分。
论文中引用的开源项目：依赖或对比的开源项目包括：Vocos， HiFi-GAN (MPD)， UnivNet (MRD)， BigVGAN， RFWave， PeriodWave， WaveFM， Encodec， F5-TTS， ScaledAdam优化器等。

📌 核心摘要

要解决什么问题：现有音频生成方法面临两难：GAN训练不稳定、易模式崩塌；而基于扩散/Flow Matching的方法虽然训练稳定、生成质量高，但需要多步采样，推理计算开销大。
方法核心是什么：提出Flow2GAN两阶段框架。第一阶段使用针对音频特性改进的Flow Matching进行预训练，以学习稳健的生成能力；第二阶段构建少步生成器，并使用精心设计的判别器（MPD， MRD）进行GAN微调，以实现高效、精细的音频生成。
与已有方法相比新在哪里：a) 改进Flow Matching：将训练目标从估计速度场重新表述为端点估计（预测干净音频x1），避免了在音频静音区域估计速度的困难；引入谱能量自适应损失缩放，强调感知上更显著的静音区域。b) 两阶段训练策略：将改进的Flow Matching与GAN微调结合，前者提供强初始化，后者高效提升细节和推理速度。c) 多分辨率网络架构：扩展Vocos的单分辨率设计，采用多分支处理不同时间-频率分辨率的傅里叶系数，增强了模型的建模能力。
主要实验结果如何：实验表明，Flow2GAN在Mel频谱图和音频令牌（Encodec）条件下均实现了高质量生成。在LibriTTS测试集上，其4步模型在PESQ（4.484）、ViSQOL（4.986）上优于所有对比方法（包括BigVGAN-v2，但后者在大规模数据上训练）。1步模型也达到有竞争力的性能（PESQ 4.189， ViSQOL 4.957）。在通用音频令牌生成任务上，Flow2GAN在多数指标上优于MBD， RFWave等方法。推理速度方面，其1步模型在CPU上的xRT为4.85（优于实时），GPU上高达851.67倍实时，远超大多数扩散模型。
实际意义是什么：该工作提供了在音频生成领域质量与效率之间更优的权衡方案。少步甚至一步推理能力使其非常适合实时或资源受限的应用场景（如TTS系统、交互式音频合成）。作为TTS声码器时，其4步版本与PeriodWave-Turbo性能相当但速度更快。
主要局限性是什么：a) 模型参数量（78.9M）大于Vocos（13.5M）和RFWave（18.1M），略逊于BigVGAN（112.4M）。b) 论文主要评估在语音波形生成上，对于更复杂的非语音音频（如音乐、环境声）的优势有待进一步验证。c) GAN微调阶段需要针对不同步数（1/2/4步）分别训练和部署独立模型，增加了维护成本。

5. Aurelius: Relation Aware Text-to-Audio Generation At Scale

🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #基准测试 #数据集

👥 作者与机构

第一作者：Yuhang He (Microsoft Research)
通讯作者：Yuhang He (Microsoft Research)
作者列表：Yuhang He (Microsoft Research), He Liang (University of Oxford, Department of Computer Science), Yash Jain (Microsoft Research), Andrew Markham (Microsoft Research), Vibhav Vineet (Microsoft Research)

💡 毒舌点评

亮点：本文核心贡献在于为“关系感知文本到音频生成”这一被忽视的子任务，系统性地构建了两个大规模、高质量的专用数据集（AudioEventSet 和 AudioRelSet）和一套完整的评测基准，精准填补了领域空白。短板：论文的“方法”部分更多是基于现有基线模型（如TangoFlux）进行评测和简单的微调实验，缺乏一个针对关系感知生成提出全新、完整架构的深度技术方案，创新性更偏向数据与评测而非模型本身。

🔗 开源详情

代码：论文提供了代码仓库链接：https://github.com/yuhanghe01/Aurelius
模型权重：论文中未提及是否公开其自身提出的模型权重，但评测了多个公开的基线模型（如TangoFlux, AudioGen）。
数据集：AudioEventSet和AudioRelSet的构建方法已详细描述，但论文中未明确说明数据集是否公开以及如何获取。项目主页链接为：https://yuhanghe01.github.io/Aurelius-Proj/
Demo：论文中未提及在线演示。
复现材料：论文提供了详细的基线模型推理设置（附录表III）、代理工作流的具体实现（附录.3）、以及数据集构建的完整描述（3.1-3.3节），为复现提供了必要信息。
论文中引用的开源项目：TangoFlux, AudioGen, PANNs (用于音频事件检测和声学效果分类), Qwen-family LLMs (用于代理工作流)。

📌 核心摘要

要解决什么问题：现有文本到音频生成模型在处理包含多个音频事件及其复杂空间、时间、逻辑关系的描述时能力严重不足，其关系建模能力未得到充分研究和评估。
方法核心是什么：提出Aurelius框架，其核心是构建两个大规模、高质量的专用语料库：包含110种独特音频事件的AudioEventSet和包含100种关系的AudioRelSet。二者通过“关系-文本模板化”与“事件实例化”策略组合，可生成海量多样化的<文本，音频>训练/测试对。
与已有方法相比新在哪里：首次为关系感知TTA任务提供了大规模、系统化的基准。新在：1) 专用数据集的规模与质量远超以往小规模探索（如RiTTA的11种关系）；2) 提出关系“元数”概念和可扩展的配对生成策略；3) 对现有SOTA模型进行了全面、深入的基准测试与分析。
主要实验结果如何：基准测试显示，现有最强模型（如TangoFlux, AudioGen）在核心关系感知指标mAMSR上得分极低，最高仅为2.22%（表2）。将TangoFlux在数据集上微调后，其mAMSR从零样本的1.77%显著提升至5.58%（表3），证明了基准的有效性。但所有模型在复杂嵌套关系和高“元数”关系上仍表现不佳（图6、图7）。
实际意义是什么：为关系感知TTA研究建立了可量化、可扩展的公共测试平台，揭示了当前技术的根本短板，指明了未来需重点攻克关系建模能力，而非仅提升音频保真度。
主要局限性是什么：1) 核心贡献集中于数据与评测，未提出全新的生成模型架构；2) 关系复杂度（最高五元）和规模（100种）仍可能无法覆盖真实世界所有潜在关系；3) 自动化评测依赖音频事件检测和声学效果分类器，其准确性可能影响最终得分。

6. AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #零样本

👥 作者与机构

第一作者：Pengjun Fang（香港科技大学）
通讯作者：未明确说明。论文列出了多位作者及其单位，通常通讯作者会在投稿系统中标注，但此处文本未明确指出。根据作者列表顺序和惯例，可能为Qifeng Chen或Harry Yang，但为避免猜测，此处标记为“未说明”。
作者列表：
- Pengjun Fang（香港科技大学）
- Yingqing He（香港科技大学）
- Yazhou Xing（香港科技大学）
- Qifeng Chen（香港科技大学）
- Ser-Nam Lim（中佛罗里达大学）
- Harry Yang（中佛罗里达大学）

💡 毒舌点评

AC-Foley的亮点在于用“听觉范例”替代“文字描述”来指挥AI配音，这巧妙绕过了语言在描述“微妙质感”时的无力感，并通过精心设计的两阶段训练确保了模型不是简单复读机。然而，其短板也明显：当视频或参考音本身涉及多重声源交叠或节奏极端错配时（比如用猫叫配急促打字），模型的协调能力就会捉襟见肘，暴露了其在处理复杂声景和时序冲突上的稚嫩。

🔗 开源详情

代码：论文中未提及代码仓库链接。仅在伦理声明中提及未来将以Apache 2.0许可证发布模型。
模型权重：未提及公开预训练权重。
数据集：使用公开数据集（VGGSound, AudioCaps2.0, WavCaps），并说明了其许可证（见附录F）。
Demo：未提供在线演示链接。
复现材料：提供了详尽的训练细节（优化器、学习率schedule、batch size、训练硬件与时间）、网络结构参数（隐藏维度、block数量），以及消融实验的设置，复现信息较为充分。
引用的开源项目/模型：论文依赖并提及了以下开源工作：CLIP（视觉/文本编码器）、Synchformer（同步特征提取器）、BigVGAN（声码器）、ImageBind（多模态嵌入，用于数据筛选和评估）、AdamW（优化器）。

📌 核心摘要

这篇论文（ICASSP 2026 / ICLR 2026）针对现有视频到音频（V2A）生成方法中依赖文本控制导致的语义粒度粗和描述模糊两大瓶颈，提出了AC-Foley，一种参考音频引导的视频到音频合成框架。其核心方法是直接将参考音频的声学特征作为条件信号，通过多模态Transformer和基于流匹配的生成模型，合成与视频同步且具有参考音频音色特性的声音。与已有方法相比，AC-Foley的新颖之处在于：1) 用音频直接控制，实现了细粒度音色迁移和零样本声音生成；2) 提出了包含重叠与非重叠条件的两阶段训练策略，解决了参考音频的时间适配与泛化问题。

主要实验结果如下：在VGGSound测试集上，AC-Foley在多个指标上超越了现有SOTA方法。例如，在“有音频条件”设置下，其FDPaSST达到56.00（低于MMAudio+CLAP基线的70.80），MCD达到11.37（低于基线的14.63）。消融实验证实了两阶段训练和多模态条件组合的有效性（表4，表6）。在“无音频条件”设置下，该模型性能也具有竞争力（表1）。此外，在音色迁移任务上，AC-Foley在未使用Greatest Hits数��集训练的情况下，超越了专门训练的CondFoley模型（表2）。该工作的实际意义在于为电影、游戏等领域的音效设计提供了更灵活、精确的AI辅助工具。主要局限性包括在处理多声源复杂环境和极端时间错配场景时性能下降（见论文LIMITATIONS部分）。

7. TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型

👥 作者与机构

第一作者：Chia-Yu Hung (Nanyang Technological University, NTU)
通讯作者：Navonil Majumder (NTU)， Soujanya Poria (NTU)
作者列表：Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU)

💡 毒舌点评

这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点，提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升，效果立竿见影。但依赖CLAP这个“裁判”本身的偏好（可能偏向特定音频风格或描述理解能力）进行优化，是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述？这是CRPO框架需要面对的更深层问题。

📌 核心摘要

要解决什么问题：文本到音频生成模型面临对齐（Alignment）挑战，即生成内容与文本描述不完全匹配，存在事件遗漏、顺序错误甚至“幻觉”。主要瓶颈是构建偏好数据集（用于对齐训练）困难，因为音频领域缺乏像语言模型那样的标准化答案或现成奖励模型。
方法核心是什么：提出TangoFlux模型和CLAP-Ranked Preference Optimization（CRPO）框架。TangoFlux是基于流匹配（Rectified Flow）和Transformer架构的高效TTA模型。CRPO的核心是迭代式“自改进”：在每个训练迭代中，用当前模型为每个提示生成多个音频样本，利用CLAP（一个文本-音频联合嵌入模型）对这些样本按与文本的匹配度进行排序，从而自动构建偏好对（赢家-输家），再用改进的DPO损失（LCRPO）进行优化。
与已有方法相比新在哪里：a) 动态数据生成：不同于使用静态偏好数据集（如BATON， Audio-Alpaca），CRPO在每次迭代中都生成新的偏好数据，使模型能持续自我优化，避免在固定数据上过拟合。b) 代理奖励模型：成功验证了CLAP可作为有效的音频对齐代理奖励模型，解决了构建偏好数据的关键障碍。c) 优化目标改进：提出了LCRPO损失函数，在标准DPO损失（LDPO-FM）的基础上加入了赢家样本的流匹配损失作为正则项，以防止对齐过程中音频保真度的下降。

主要实验结果如何：TangoFlux（515M参数）在AudioCaps测试集上的多个客观指标（如CLAPscore: 0.480, FDopenl3: 75.1）和人类评估（整体质量OVL和相关性REL的z-score、Elo分数）上均优于之前的SOTA模型（如Tango 2， Stable Audio Open）。它在A40 GPU上生成30秒音频仅需3.7秒，速度优势明显。消融实验证明，CRPO动态生成的数据优于静态偏好数据集；LCRPO损失函数优于标准的LDPO-FM损失。

主要对比结果表（来自论文表1、表2、表3）：

模型	参数量	生成时长	步数	FDopenl3↓	KLpasst↓	CLAPscore↑	推理时间(s)
Tango 2	866M	10s	200	108.4	1.11	0.447	22.8
Stable Audio Open	1056M	47s	100	89.2	2.58	0.291	8.6
TANGOFLUX (最终)	515M	30s	50	75.1	1.15	0.480	3.7
模型	z-score (OVL)	z-score (REL)	Elo (OVL)	Elo (REL)
:—	:—	:—	:—	:—
Tango 2	-0.019	0.1602	1,419	1,507
SA Open	0.0723	-0.3584	1,444	1,268
TANGOFLUX	0.2486	0.6919	1,501	1,628
对齐方法	FDopenl3↓	CLAPscore↑	KLpasst↓	Elo (REL)
:—	:—	:—	:—	:—
TANGOFLUX-base (未对齐)	80.2	0.431	1.22	1,253
TANGOFLUX-baton (静态数据)	80.5	0.437	1.20	1,392
TANGOFLUX (CRPO动态数据)	75.1	0.480	1.15	1,520

实际意义是什么：提供了构建高效、可控、高质量文本到音频生成系统的可行路径。CRPO框架为多模态内容生成的对齐问题提供了一种通用的、可自动化的解决方案。开源模型和代码有助于社区进一步研究和应用。
主要局限性是什么：a) 对齐质量上限受限于作为代理奖励模型的CLAP的能力与偏见。b) 自动构建的偏好数据可能无法完全捕捉复杂、主观的人类偏好（如创意性、情感细微差别）。c) 模型对超长、超复杂或高度抽象的文本描述的生成能力仍有待验证。

详细分析

01.模型架构

TangoFlux的整体架构和训练流程可概括为“预训练-对齐”两阶段，并包含一个创新的在线迭代对齐循环。

TangoFlux整体训练流程图图1：TangoFlux的整体训练流程图。该图清晰地展示了训练的两个主要阶段：1）预训练：使用WavCaps和AudioCaps数据集，通过流匹配损失（ℒFM）训练TangoFlux-base模型。2）在线迭代对齐（CRPO）：这是论文的核心。从基线模型π₀开始，迭代地进行三个步骤：a) 采样：从提示库中采样一批提示，用当前模型πk为每个提示生成多个音频样本。b) 训练数据构建：使用CLAP模型对生成的音频进行评分和排序，为每个提示构建赢家-输家偏好对，形成数据集𝒟k。c) 训练：使用该数据集，结合流匹配损失（ℒFM）和DPO损失（ℒCRPO）将模型πk优化为πk₊₁。这个循环迭代进行，使模型持续自我改进。

模型架构细节：

骨干网络：采用混合Transformer架构，结合了6个多模态扩散Transformer（MMDiT）块和18个扩散Transformer（DiT）块。MMDiT块能更好地融合条件信息，而DiT块则更简洁高效，这种混合设计平衡了性能与扩展性。每个块有8个注意力头，隐藏维度128，总宽度1024，总参数量约515M。
条件控制：采用双重条件控制：
- 文本条件：使用预训练的FLAN-T5编码器对输入文本提示进行编码，得到文本嵌入 c_text。
- 时长条件：为了实现可变时长生成（最长30秒），使用一个小型神经网络将目标时长编码为时长嵌入 c_dur。关键在于，模型始终在固定长度（对应30秒音频）的潜空间上操作，c_dur 明确控制其中多少部分用于存放实际音频内容，其余部分填充静音。
音频编码：使用来自Stable Audio Open的预训练变分自编码器（VAE）。它将44.1kHz的立体声波形编码为潜表示 Z，并在推理时将模型生成的潜表示解码回波形。VAE在TangoFlux训练期间保持冻结。
生成过程（流匹配）：模型学习一个从噪声 x₀（高斯分布）到目标潜表示 x₁ 的“速度场” u(x_t, t; θ)。在推理时，从纯噪声 x₀ 开始，使用Euler求解器（或Heun求解器）沿着学习到的速度场迭代求解50步，最终得到干净的音频潜表示 x₁，再经VAE解码得到音频。

02.核心创新点

CLAP-Ranked Preference Optimization (CRPO) 框架：
- 是什么：一种动态的、迭代式的偏好数据生成与模型对齐方法。它让模型在训练过程中持续生成自己的“教材”（偏好数据），并用它来优化自己。
- 之前方法的局限：之前为TTA模型对齐构建偏好数据主要依赖：a) 人工标注（如BATON），成本高、难以规模化；b) 静态合成数据集（如Audio-Alpaca），灵活性差，无法随模型进化。
- 如何起作用：在每次迭代中，用当前模型生成多个样本，用CLAP（作为代理奖励模型）自动排序构建偏好对，然后执行DPO优化。这形成了一个“生成-评估-优化”的闭环。
- 带来的收益：实验证明，由CRPO动态生成的数据集，在后续对齐训练中，性能显著优于使用静态的BATON和Audio-Alpaca数据集（见表3）。在线生成优于离线固定数据（见图2），避免了过早的性能饱和与退化。
针对流匹配的LCRPO损失函数：
- 是什么：在标准DPO-FM损失（LDPO-FM）的基础上，额外加入了赢家样本的流匹配损失（LFM）作为正则项。
- 之前方法的局限：直接将LLM上的DPO损失（LDPO-FM）应用于流匹配模型时，观察到赢家和输家的损失值会同时上升（见图4），这可能表明优化过度，导致生成音频偏离高质量的分布（奖励黑客问题）。
- 如何起作用：ℒ_CRPO = ℒ_DPO-FM + ℒ_FM。额外的 ℒ_FM 项锚定了模型对赢家样本的建模能力，防止其在拉大赢家-输家差距的同时，自身质量也下降。
- 带来的收益：图3和图4表明，与仅使用LDPO-FM相比，LCRPO的损失增长更平稳，且在保持相似KL散度和FD的情况下，取得了更高的CLAP分数，优化过程更稳定。
高效且强大的文本到音频生成模型TangoFlux：
- 是什么：一个参数量适中（515M）、基于流匹配、支持可变时长、训练数据全公开的TTA模型。
- 之前方法的局限：许多高性能的TTA模型（如Stable Audio, MusicGen）使用私有数据训练；扩散模型通常需要大量去噪步数（100-200步），推理慢。
- 如何起作用：采用MMDiT/DiT混合架构和流匹配目标，流匹配相比扩散通常更高效（更少的采样步数达到更好质量）。通过时长条件控制实现变长生成。使用公开数据（WavCaps, AudioCaps）训练。
- 带来的收益：在仅需50步、3.7秒推理时间内，生成44.1kHz的30秒音频，并在多个基准上达到SOTA（表1），证明了其在效率和效果上的优势。

03.细节详述

训练数据：
- 预训练数据：WavCaps数据集（约40万条音频及描述）。所有音频被处理为单声道，然后复制为伪立体声以兼容VAE。短于30秒的填充静音至30秒，长于30秒的中心裁剪至30秒。
- 微调数据：AudioCaps训练集（约4.5万条）。
- CRPO偏好数据：从AudioCaps训练集中随机采样20,000个提示，每个提示用当前模型生成5个音频，用CLAP（630k-audioset-best 检查点）对5个音频评分，选取最高分和最低分构成一对偏好数据。
损失函数：
- 流匹配损失（ℒ_FM）：ℒ_FM = E_{x₁,x₀,t} ||u(x_t, t; θ) - v_t||²，其中 v_t = x₀ - x₁ 是真实速度。用于预训练和作为CRPO损失的一部分。
- DPO-FM损失（ℒ_DPO-FM）：见公式(2)。通过对比赢家（x_w）和输家（x_l）在模型 θ 和参考模型 θ_r（固定为每轮迭代开始时的检查点）下的流匹配损失，来优化偏好排序。
- CLARPO损失（ℒ_CRPO）：ℒ_CRPO = ℒ_DPO-FM + ℒ_FM。ℒ_FM 在赢家样本上计算。
训练策略：
- 预训练：在WavCaps上训练80个epoch。使用AdamW优化器（β1=0.9， β2=0.95），峰值学习率 5e-4，线性warmup 2000步。批次大小80（5个A40 GPU，每卡16）。
- 微调：在AudioCaps训练集上继续微调65个epoch，得到TANGOFLUX-base。
- 对齐（CRPO迭代）：批次大小48，峰值学习率 1e-5，线性warmup 100步。每次CRPO迭代训练8个epoch，取最后一个epoch的检查点用于下一轮的数据生成。共进行5次迭代。
关键超参数：
- 模型参数：515M。
- 隐藏维度：1024。
- 注意力头数：8。
- 流匹配时间步 t 采样：从logit-normal分布（均值0，方差1）中采样。
- 推理：Euler求解器， 50步，Classifier-Free Guidance (CFG) 比例=4.5。
训练硬件：5个NVIDIA A40 GPU。
推理细节：模型始终在30秒的固定潜空间上操作。通过时长嵌入控制生成内容占实际时长的比例。推理时，采样一个长度为30秒对应的潜空间噪声，经50步Euler积分得到潜表示，再经VAE解码为波形。若请求时长小于30秒，则取前对应时长的音频。
正则化/稳定技巧：在LCRPO损失中添加赢家样本的流匹配损失作为正则化项，以稳定优化过程，防止奖励黑客。

04.实验结果

论文在AudioCaps测试集上进行了全面的客观和主观评估。

主要对比结果（客观指标）：见下表。TangoFlux在大多数指标上取得最优，尤其在衡量音频-文本对齐的CLAPscore和衡量音频质量的FDopenl3上优势明显。推理速度也是其显著优势。

模型	参数量	生成时长	步数	FDP ↓	FDopenl3 ↓	KLpasst ↓	KAD ↓	CLAPscore ↑	IS ↑	推理时间(s)
ConsistencyTTA	559M	10s	1	20.9	94.6	1.43	0.61	0.377	9.1	<0.2
AudioLCM	160M	10s	1	19.2	107.4	1.58	0.56	0.363	10.2	<0.2
AudioLDM 2-large	712M	10s	200	33.2	108.3	1.81	1.78	0.419	7.9	24.8
Make-An-Audio 2	160M	10s	100	15.6	98.7	1.33	0.45	0.406	9.4	2.3
EzAudio-XL	874M	10s	200	15.8	84.7	1.20	0.15	0.460	10.8	12.2
Stable Audio Open	1056M	47s	100	42.6	89.2	2.58	4.15	0.291	9.9	8.6
Tango	866M	10s	200	24.5	107.9	1.20	1.71	0.407	7.8	22.8
Tango 2	866M	10s	200	20.8	108.4	1.11	1.38	0.447	9.0	22.8
GenAU-Full-L	1.25B	10s	100	20.1	93.2	1.37	0.96	0.447	12.0	5.3
AudioX	1.1B	10s	250	25.2	77.6	1.56	1.30	0.380	10.0	9.6
TANGOFLUX-base	516M	30s	50	20.7	80.2	1.22	0.67	0.431	11.7	3.7
TANGOFLUX	516M	30s	50	20.3	75.1	1.15	0.60	0.480	12.2	3.7

主要对比结果（人类评估）：在50个复杂提示上，由至少4名标注员进行0-100分的评分，评估整体音频质量（OVL）和文本相关性（REL）。指标包括z-score、排名和Elo分数。TangoFlux在所有指标上均领先。

模型	z-scores		Ranking (Mean, Mode)		Elo
	OVL	REL	OVL	REL	OVL	REL
AudioLDM 2	-0.3020	-0.4936	3.5, 4	3.7, 4	1,236	1,196
SA Open	0.0723	-0.3584	2.4, 1,3	3.3, 3	1,444	1,268
Tango 2	-0.019	0.1602	2.4, 2	1.9, 2	1,419	1,507
TANGOFLUX	0.2486	0.6919	1.7, 2	1.1, 1	1,501	1,628

关键消融实验：

CRPO vs 静态偏好数据集（表3）：使用CRPO动态数据对齐的TangoFlux，在CLAPscore（0.480 vs 0.437/0.448）和人类评估Elo分数上，显著优于使用BATON或Audio-Alpaca静态数据对齐的版本。

在线与离线CRPO训练曲线对比图2：在线CRPO与离线CRPO的训练曲线对比。该图显示了5次迭代中CLAPscore、IS和KLpasst的变化。离线CRPO（使用固定数据）在第二轮后CLAPscore开始下降，KLpasst上升，表明过拟合和性能退化。在线CRPO（每轮生成新数据）的CLAPscore持续上升至第4轮，KLpasst持续下降，IS持续上升，证明了动态数据生成的必要性和有效性。

LCRPO vs LDPO-FM（图3，图4）：图3：LCRPO与LDPO-FM在不同迭代次数下的性能指标对比。 (a) CLAPscore：LCRPO持续提升且高于LDPO-FM。(b) FDopenl3：两者相近。(c) KLpasst：两者相近。表明LCRPO在提升对齐度（CLAPscore）的同时，能维持生成质量和多样性。
图4：LCRPO与LDPO-FM的赢家/输家损失随迭代次数的变化。两种损失函数的赢家和输家损失都随迭代增加，且差值（margin）也在拉大。但LCRPO的损失增长更平缓、稳定，而LDPO-FM在迭代3后增长加速，可能暗示优化不稳定或过拟合。

其他重要实验：

每个提示生成音频数量（N）的影响（表4）：N=5或10略优于N=2，但差异不大，需权衡计算成本。
CLAP作为奖励模型的验证（表5）：采用Best-of-N策略（N从1增加到15），CLAPscore提升，KLpasst下降，FDopenl3不变，证明CLAP能有效识别更对齐的样本，且不损害多样性/质量。
CFG比例的影响（表6）：存在权衡。CFG=3.5时CLAPscore最高（0.481），CFG=4.5或5.0时FDopenl3更低（75.1/74.6）。论文最终选择CFG=4.5。
求解器对比（表7）：Euler求解器（50步）略优于Heun求解器（100步），CLAPscore 0.480 vs 0.474。
时长控制准确性（图5）：生成的音频实际时长与请求时长高度匹配。

图6：不同模型CLAPscore与推理时间的对比曲线。 (a) CLAPscore vs Inference Time：TangoFlux在3.7秒（50步）时达到0.480，远超同时间点的其他模型。(b) FDopenl3 vs Inference Time：TangoFlux在3.7秒时FDopenl3为75.1，表现优异。这直观展示了其在效率-效果上的领先地位。

05.评分理由

学术质量：6.0/7。论文的创新点（CRPO框架、LCRPO损失）设计合理，且通过严谨的实验（多基线对比、多角度消融、客观与主观评估相结合）得到了充分验证。技术细节描述清晰，论证逻辑连贯。不足之处在于模型架构本身不是最前沿的颠覆性设计，且对齐效果受限于CLAP这一代理模型。
选题价值：1.5/2。文本到音频生成是当前AI生成内容（AIGC）的重要前沿，具有巨大的创意产业应用潜力。本文直击该领域从“生成”到“可控、高质量生成”的关键瓶颈——数据高效的对齐方法，选题精准且重要。
开源与复现加成：+0.5。论文不仅承诺开源，更在细节披露上堪称模范，提供了从数据处理、模型配置、训练日志到评估脚本的全方位信息，极大地降低了学术界和工业界复现和跟进的门槛，对社区贡献巨大。

开源详情

代码：论文明确承诺将公开代码仓库链接（https://tangoflux.github.io/ 提供了项目主页和示例），但具体代码链接在论文提交时未提供，需待正式发布。
模型权重：论文明确承诺将开源模型权重。
数据集：训练所用数据集（WavCaps， AudioCaps）均为公开数据集。CRPO构建的偏好数据集由模型动态生成，非固定公开。
Demo：提供了在线演示网站（https://tangoflux.github.io/），包含模型生成的音频样本对比。
复现材料：提供了极其详尽的附录，包括：完整的训练超参数（优化器、学习率、批次大小、轮数）、所有评估指标的实现细节、人类评估的指南和界面、复杂评估提示的生成模板、不同设置（CFG， N采样数）的消融实验结果等。
论文中引用的开源项目：依赖的主要开源组件包括：FLAN-T5（文本编码器）、CLAP（奖励模型，来自 lukewys/laion_clap）、Stable Audio Open VAE（音频编解码器）、FLUX 模型架构设计。

🔗 开源详情

代码：论文明确承诺将公开代码仓库链接（https://tangoflux.github.io/ 提供了项目主页和示例），但具体代码链接在论文提交时未提供，需待正式发布。
模型权重：论文明确承诺将开源模型权重。
数据集：训练所用数据集（WavCaps， AudioCaps）均为公开数据集。CRPO构建的偏好数据集由模型动态生成，非固定公开。
Demo：提供了在线演示网站（https://tangoflux.github.io/），包含模型生成的音频样本对比。
复现材料：提供了极其详尽的附录，包括：完整的训练超参数（优化器、学习率、批次大小、轮数）、所有评估指标的实现细节、人类评估的指南和界面、复杂评估提示的生成模板、不同设置（CFG， N采样数）的消融实验结果等。
论文中引用的开源项目：依赖的主要开源组件包括：FLAN-T5（文本编码器）、CLAP（奖励模型，来自 lukewys/laion_clap）、Stable Audio Open VAE（音频编解码器）、FLUX 模型架构设计。

8. LayerSync: Self-aligning Intermediate Layers

✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #多模态模型 #自监督学习

👥 作者与机构

第一作者：Yasaman Haghighi（Ecole Polytechnique Fédérale de Lausanne (EPFL)）
通讯作者：Alexandre Alahi（Ecole Polytechnique Fédérale de Lausanne (EPFL)）
作者列表：Yasaman Haghighi（EPFL）、Bastien van Delft（EPFL）、Mariam Hassan（EPFL）、Alexandre Alahi（EPFL）

💡 毒舌点评

这篇论文的亮点在于其极致的“自给自足”哲学——用模型自己最强的层当老师，去教最弱的层，完全抛开了笨重的外部模型（如DINOv2），这个想法既优雅又实用，在多个模态上都跑通了，训练加速效果非常惊人。但短板是，这种“强层指导弱层”的启发式规则选择（比如跳过最后20%的层）感觉有点“经验主义”，理论上的解释（良性循环）目前更多是一种假设，缺乏更深层次的数学证明或机理分析，让人忍不住想问：这种对齐会不会在后期“扼杀”特征多样性，或者让模型过早陷入某种次优的表示空间？

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/vita-epfl/LayerSync.git。
模型权重：论文中未提及公开预训练模型权重。
数据集：使用的是公开数据集（ImageNet， MTG-Jamendo， HumanML3D， CLEVRER， MixKit），论文中未说明获取方式，但这些是常见公开数据集。
Demo：论文中未提及在线演示。
复现材料：非常充分。论文附录（Section L, M）详细列出了所有实验的超参数设置（表18， 19）、训练硬件、采样器配置、评估指标细节等。算法伪代码（Algorithm 1）也在附录中给出。
依赖的开源项目：主要依赖于SiT（Ma et al., 2024）作为基础模型架构，以及Stable Diffusion的VAE用于图像编码。

📌 核心摘要

这篇论文旨在解决使用外部大型预训练模型（如视觉语言模型）来引导扩散模型中间层表示时所带来的计算开销大、数据依赖强、跨模态迁移难的问题。作者提出了一种名为LayerSync的自包含、即插即用的正则化方法。其核心思想是：扩散模型内部不同层学习的特征质量存在异质性，深层的特征语义更丰富。因此，可以利用模型自身的这些深层强特征作为“内在引导信号”，通过最大化浅层弱特征与深层强特征之间的相似度，来正则化和提升浅层特征的学习。与已有的外部引导方法（如REPA）相比，LayerSync完全不依赖额外的模型或数据，计算开销几乎为零；与同属自包含范畴的Dispersive Loss方法相比，它提供了更具方向性的学习信号。实验表明，LayerSync在图像生成任务上可将训练加速超过8.75倍（FID改善23.6%），并在音频、人类动作和视频生成任务上均一致提升了生成质量和训练效率。此外，该方法还改善了模型各层的内部表征质量。其局限性包括：关键的层选择策略依赖启发式规则，且“良性循环”的理论支撑有待加强。

任务	数据集	指标	基线 (SiT-XL/2)	+ LayerSync	提升
图像生成	ImageNet 256x256	FID↓ (80 Epochs)	17.97	11.24	37.5%
图像生成	ImageNet 256x256	FID↓ (800 Epochs)	8.99	6.87	23.6%
音频生成	MTG-Jamendo	FAD↓ (650 Epochs)	0.251	0.199	20.7%
人类动作生成	HumanML3D	FID↓ (600K Iters)	0.5206	0.4801	7.7%

9. AudioX: A Unified Framework for Anything-to-Audio Generation

✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型

👥 作者与机构

第一作者：Zeyue Tian (Hong Kong University of Science and Technology)
通讯作者：Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology)
作者列表：Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology)

💡 毒舌点评

本文的亮点在于构建了一个工程上非常扎实的统一框架，其设计的多模态自适应融合模块（MAF）有效解决了不同模态信号干扰的问题，并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于，尽管实验全面，但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入，对于“任何东西”（如图像、草图等）的泛化能力论证不足，更像一个“文本/视频/音频到音频”的强统一模型。