Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #流匹配 #基准测试 #数据集 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Yuhang He (Microsoft Research) 通讯作者:Yuhang He (Microsoft Research) 作者列表:Yuhang He (Microsoft Research), He Liang (University of Oxford, Department of Computer Science), Yash Jain (Microsoft Research), Andrew Markham (Microsoft Research), Vibhav Vineet (Microsoft Research) 💡 毒舌点评 亮点:本文核心贡献在于为“关系感知文本到音频生成”这一被忽视的子任务,系统性地构建了两个大规模、高质量的专用数据集(AudioEventSet 和 AudioRelSet)和一套完整的评测基准,精准填补了领域空白。短板:论文的“方法”部分更多是基于现有基线模型(如TangoFlux)进行评测和简单的微调实验,缺乏一个针对关系感知生成提出全新、完整架构的深度技术方案,创新性更偏向数据与评测而非模型本身。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 390 words

Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation

📄 Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation #音频生成 #自回归模型 #扩散模型 #知识蒸馏 #一步生成 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #自回归模型 #知识蒸馏 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kuan-Po Huang (未明确说明所属机构) 通讯作者:未明确说明 作者列表:Kuan-Po Huang (未说明), Bo-Ru Lu (未说明), Byeonggeun Kim (未说明), Mihee Lee (未说明), Zalan Fabian (未说明), Renard Korzeniowski (未说明), Qingming Tang (未说明), Greg Ver Steeg (未说明), Hung-yi Lee (未说明), Chieh-Chi Kao (未说明), Chao Wang (未说明)。论文中未提供任何作者的具体机构信息。 💡 毒舌点评 亮点:论文巧妙地将能量距离这一分布匹配目标引入文本到音频生成,实现了真正意义上的“一步”潜变量合成,同时通过从强大的多步扩散模型(IMPACT)中进行表示蒸馏,有效弥补了单步生成的质量损失,是一次“既要速度又要质量”的成功工程实践。 短板:尽管在AudioCaps基准上表现优异,但研究完全局限于该数据集,缺乏在更大规模、更多样化音频(如音乐、长时叙事音频)或真实用户场景下的验证,其泛化能力和实际应用鲁棒性存疑;更关键的是,未开源代码与模型,大大削弱了其可复现性和社区影响力。 ...

2026-05-04 · 更新于 2026-06-12 · 4 min · 669 words

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #GAN #少样本生成 #波形生成 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #GAN #少样本生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zengwei Yao(Xiaomi Corp., Beijing, China) 通讯作者:Daniel Povey(dpovey@xiaomi.com,Xiaomi Corp., Beijing, China) 作者列表:Zengwei Yao(Xiaomi Corp.)、Wei Kang(Xiaomi Corp.)、Han Zhu(Xiaomi Corp.)、Liyong Guo(Xiaomi Corp.)、Lingxuan Ye(Xiaomi Corp.)、Fangjun Kuang(Xiaomi Corp.)、Weiji Zhuang(Xiaomi Corp.)、Zhaoqing Li(Xiaomi Corp.)、Zhifeng Han(Xiaomi Corp.)、Long Lin(Xiaomi Corp.)、Daniel Povey(Xiaomi Corp.) 💡 毒舌点评 这篇论文巧妙地将Flow Matching的稳定训练与GAN的精细生成结合,提出了一种两阶段训练范式,成功实现了少步甚至一步的高质量音频生成,解决了推理速度与生成质量难以兼得的核心矛盾。但多分支网络结构增加了模型复杂度和实现难度,且论文主要验证语音波形生成,其对非语音、复杂环境音频的泛化优势并未充分体现。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 487 words

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

📄 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows #跨模态生成 #音频生成 #流匹配 #多模态模型 🔥 9.5/10 | 前10% | #跨模态生成 | #流匹配 | #音频生成 #多模态模型 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Yeonwoo Cha* (KAIST) 通讯作者:Seunghoon Hong (KAIST) 作者列表:Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST)(*表示同等贡献) 💡 毒舌点评 亮点在于其“共享潜在空间+单模态可逆流”的设计,用近乎暴力的简洁性一举解决了多模态生成中数据配对、计算成本和训练复杂度的“不可能三角”,工程思想非常漂亮。短板是论文为了突出效率,选用的模型体量和训练数据远小于前沿基线,可能在生成质量的绝对上限上有所妥协,且对更复杂的模态交互(如高保真视频生成)的能力尚未被充分验证。 🔗 开源详情 代码:论文明确提供了项目主页和代码仓库链接:https://yeonwoo378.github.io/official_flowbind。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文详细描述了使用的训练数据集(LAION-COCO, Flickr-30k, AudioCaps v2, VGGSound)及其来源,但这些是现有公开数据集,FlowBind本身未发布新数据集。 Demo:项目主页可能包含演示,但论文中未明确提及。 复现材料:提供了非常充分的复现材料,包括:详细的模型架构(MLP with AdaLN-zero)、训练配方(优化器、batch size、训练步数、硬件)、所有超参数、评估协议及指标计算细节。 论文中引用的开源项目:EmbeddingGemma (Team et al., 2025), CLIP (Radford et al., 2021), Stable-UnCLIP, CLAP (Elizalde et al., 2023), AudioLDM (Liu et al., 2023), Gemma3-1B。 📌 核心摘要 本文旨在解决现有基于流匹配的任意到任意(any-to-any)多模态生成方法效率低下的问题,这些问题包括:对数据配对要求严格(需大量完全配对数据)、计算成本高(需建模联合分布)以及训练流程复杂(多阶段训练)。FlowBind提出一个简洁的框架,其核心思想是学习一个能捕捉跨模态共性的可学习共享潜在空间,并为每个模态配备一个连接该潜在空间的可逆流。所有组件在单一的流匹配目标下联合优化,推理时各模态的可逆流可直接作为编码器/解码器实现跨模态翻译。与基线CoDi和OmniFlow相比,FlowBind通过因式分解相互作用,自然支持使用任意子集模态数据进行训练,在大幅降低数据需求和计算成本的同时,达到了有竞争力的生成质量。实验表明,在文本、图像和音频任务上,FlowBind参数量仅为OmniFlow的约1/6,训练速度快约10倍,且生成质量可比。该框架的意义在于为高效、灵活的多模态生成提供了一种新的通用解决方案。主要局限性在于其当前实验的模型规模较小,在生成细节的保真度上可能不及更庞大的基线模型,且对更复杂、高维的模态(如视频)的泛化能力有待进一步证明。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 577 words

ICLR 2026 - 音频生成 论文列表

ICLR 2026 - 音频生成 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensiona 9.0分 前10% 🥈 SCRAPL: Scattering Transform with Random Paths for Machine L 8.5分 前25% 🥉 UALM: Unified Audio Language Model for Understanding, Genera 8.5分 前25% 4. Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution 8.0分 前25% 5. Aurelius: Relation Aware Text-to-Audio Generation At Scale 8.0分 前25% 6. AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis wi 8.0分 前25% 7. TangoFlux: Super Fast and Faithful Text to Audio Generation 8.0分 前25% 8. LayerSync: Self-aligning Intermediate Layers 7.5分 前25% 9. AudioX: A Unified Framework for Anything-to-Audio Generation 7.5分 前25% 📋 论文详情 🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 ...

2026-05-04 · 更新于 2026-06-12 · 9 min · 1782 words

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #音频生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mason Long Wang (MIT CSAIL) 通讯作者:未说明 作者列表:Mason Long Wang (MIT CSAIL), Cheng-Zhi Anna Huang (MIT CSAIL) 💡 毒舌点评 亮点在于,它提出了一个优雅且系统性的框架,将傅里叶分析引入生成模型的潜空间,为音乐生成提供了一个全新的、连续的“时间尺度”控制轴,概念上比现有的离散层次控制(如RVQ层)更直观。短板是,虽然实验在MTG-Jamendo等数据集上表现优异,但音乐生成模型的通用评估依然困难,且用户研究规模有限(29人),对“音乐连贯性”等主观感受的量化仍具挑战。 🔗 开源详情 代码:论文中提供了公开的代码仓库链接(https://github.com/maswang32/latentfouriertransform/)。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:主要使用公开数据集MTG-Jamendo、GTZAN、Maestro,论文未提供其私有处理版本。 Demo:论文中提到提供在线音频演示(https://masonlwang.com/latentfouriertransform/)。 复现材料:论文附录(Appendix A)提供了极其详细的实验设置信息,包括:各版本编码器(MLP, U-Net, DAC)的具体架构和超参数、解码器(扩散模型)架构、训练细节(优化器、学习率、batch size、迭代次数、warmup、EMA等)、其他超参数(掩码生成参数、扩散参数)、数据集说明、实验具体设置(频率带划分、用户研究细节)、隔离实验和可解释性实验的方法。这些信息足以支持复现。 论文中引用的开源项目:BigVGAN(声码器)、DAC(音频编码器)、Essentia、Librosa、VGGish等。 📌 核心摘要 要解决什么问题:现有基于粗到细生成范式的音乐生成模型(如扩散模型、自回归模型)难以对生成过程进行中、小尺度特征的精细控制。用户通常只能控制全局属性(如文本描述)或特定语义属性(如音高、响亮),无法直接指定并控制音乐中不同时间尺度(如和弦进行、颤音)的模式。 方法核心是什么:论文提出了“潜空间傅里叶变换”(LATENTFT)框架。它使用一个扩散自编码器将音频编码为潜向量时间序列,并对该序列进行离散傅里叶变换(DFT),得到“潜频谱”。在训练时,对潜频谱进行随机掩码(保持频带相关性和对数频率轴),然后用掩码后的潜序列作为条件,训练扩散解码器重构音频。 与已有方法相比新在哪里: 控制维度新:首次在生成模型中引入对“潜空间频率”(对应音乐模式的时间尺度)的直接、连续控制,类似于音频均衡器(EQ)在音色上的作用,但作用对象是音乐结构。 训练策略新:核心创新在于训练时的潜频域掩码策略。通过在训练中随机遮蔽潜频谱的不同频段,使模型学会从部分频谱信息中恢复完整音乐,从而支持推理时用户指定的、针对特定时间尺度的控制。 任务定义新:将音乐生成/融合任务从属性条件或简单特征混合,提升到了基于时间尺度的、可解释的条件混合。 主要实验结果如何:论文在条件生成和融合两个任务上,与多种基线(掩码Token模型、引导梯度、ILVR、DAC/RAVE后处理、频谱图滤波、交叉合成)进行了对比。在MTG-Jamendo数据集上的关键结果如下表所示,LATENTFT在各项指标上均显著优于基线,尤其是在音频质量(FAD)和条件遵循(如响度、节奏相关性)方面。 方法 条件生成 FAD ↓ 条件生成 节奏相似度 ↑ 融合 FAD ↓ 融合 节奏相似度 ↑ LATENTFT-MLP 0.337 0.963 1.387 0.873 LATENTFT-UNet 0.348 0.966 1.357 0.878 ILVR 1.537 0.839 2.696 0.858 Guidance 1.061 0.813 1.466 0.832 DAC 7.016 0.838 6.257 0.792 (表1:MTG-Jamendo测试集上的条件生成与融合结果) ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 294 words

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #音频生成 #多模态模型 #扩散模型 #自监督学习 #生成模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #多模态模型 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yasaman Haghighi(Ecole Polytechnique Fédérale de Lausanne (EPFL)) 通讯作者:Alexandre Alahi(Ecole Polytechnique Fédérale de Lausanne (EPFL)) 作者列表:Yasaman Haghighi(EPFL)、Bastien van Delft(EPFL)、Mariam Hassan(EPFL)、Alexandre Alahi(EPFL) 💡 毒舌点评 这篇论文的亮点在于其极致的“自给自足”哲学——用模型自己最强的层当老师,去教最弱的层,完全抛开了笨重的外部模型(如DINOv2),这个想法既优雅又实用,在多个模态上都跑通了,训练加速效果非常惊人。但短板是,这种“强层指导弱层”的启发式规则选择(比如跳过最后20%的层)感觉有点“经验主义”,理论上的解释(良性循环)目前更多是一种假设,缺乏更深层次的数学证明或机理分析,让人忍不住想问:这种对齐会不会在后期“扼杀”特征多样性,或者让模型过早陷入某种次优的表示空间? 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/vita-epfl/LayerSync.git。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用的是公开数据集(ImageNet, MTG-Jamendo, HumanML3D, CLEVRER, MixKit),论文中未说明获取方式,但这些是常见公开数据集。 Demo:论文中未提及在线演示。 复现材料:非常充分。论文附录(Section L, M)详细列出了所有实验的超参数设置(表18, 19)、训练硬件、采样器配置、评估指标细节等。算法伪代码(Algorithm 1)也在附录中给出。 依赖的开源项目:主要依赖于SiT(Ma et al., 2024)作为基础模型架构,以及Stable Diffusion的VAE用于图像编码。 📌 核心摘要 这篇论文旨在解决使用外部大型预训练模型(如视觉语言模型)来引导扩散模型中间层表示时所带来的计算开销大、数据依赖强、跨模态迁移难的问题。作者提出了一种名为LayerSync的自包含、即插即用的正则化方法。其核心思想是:扩散模型内部不同层学习的特征质量存在异质性,深层的特征语义更丰富。因此,可以利用模型自身的这些深层强特征作为“内在引导信号”,通过最大化浅层弱特征与深层强特征之间的相似度,来正则化和提升浅层特征的学习。与已有的外部引导方法(如REPA)相比,LayerSync完全不依赖额外的模型或数据,计算开销几乎为零;与同属自包含范畴的Dispersive Loss方法相比,它提供了更具方向性的学习信号。实验表明,LayerSync在图像生成任务上可将训练加速超过8.75倍(FID改善23.6%),并在音频、人类动作和视频生成任务上均一致提升了生成质量和训练效率。此外,该方法还改善了模型各层的内部表征质量。其局限性包括:关键的层选择策略依赖启发式规则,且“良性循环”的理论支撑有待加强。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 311 words

MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video

📄 MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video #音频生成 #流匹配 #音频事件检测 #多任务学习 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音频事件检测 #多任务学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Kazuya Tateishi(索尼集团,日本) 通讯作者:未说明 作者列表:Kazuya Tateishi(索尼集团,日本)、Akira Takahashi(索尼集团,日本)、Atsuo Hiroe(索尼集团,日本)、Hirofumi Takeda(索尼集团,日本)、Shusuke Takahashi(索尼集团,日本)、Yuki Mitsufuji(索尼集团,日本 & 索尼AI,美国) 💡 毒舌点评 这篇论文的亮点在于它巧妙地利用视频到音频生成任务作为“桥梁”,将音频事件检测任务“融入”生成过程本身,通过联合建模显著提升了事件预测的准确性和生成音频的质量,这是一个思路清晰且实用的改进。但其短板也很明显:所有实验仅在一个高度受控、类别单一的“敲击”数据集(Greatest Hits)上进行,结论对于更复杂、声学环境多样的真实世界场景(如电影、自然录音)的泛化能力未经检验,显得说服力不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及预训练或微调后模型权重的下载链接。 数据集:论文中未提及具体的数据集下载链接或开源协议,仅说明使用了Greatest Hits dataset。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置文件、检查点文件或代码附录等具体复现材料的下载链接。但文中提供了详细的实现细节(3.2节),包括硬件环境、优化器、学习率策略、训练步数等超参数信息。 论文中引用的开源项目: MMAudio:论文中作为基础模型引用,但未提供其开源仓库链接。 MMAudioSep:论文中作为下游任务应用引用,但未提供链接。 VGGish:论文中作为基线模型引用,但未提供链接。 论文中引用的其他方法(如CondFoley等)也均未提供具体开源链接。 补充信息 [细节详述] 补充:论文明确指出,对于材质分类任务中官方测试集未涵盖的材料类别,评估时使用了验证集中的样本(“For materials not present in the test split, we used samples from the validation split.”)。这一做法可能影响评估结果的严格性与公平性,值得在复现和理解其性能数据时加以注意。 [实验结果] 补充:在材质分类任务的讨论中,论文具体指出了即使经过微调,模型在识别地毯、石膏板和玻璃等形状特征不明显的材质时仍面临挑战(“recognizing materials with less distinctive shapes, such as carpet, drywall, and glass remains a challenge”)。这指出了当前方法在细粒度视觉-声音关联建模上的局限性。 [实验结果] 补充:为确保测试时输入时长(2秒)与训练时(8秒)匹配,论文采用了循环拼接(loop and concatenate)策略(“we looped and concatenated each clip to 8 s before running inference. We used the predictions corresponding to the first 2 s for evaluation.”)。这是一种常见的处理方式,但可能引入不自然的重复内容,论文未讨论其对生成音频质量或事件检测的潜在影响。 [细节详述] 补充:论文在讨论联合头架构时指出,为将事件逻辑值(logits)与音频潜变量拼接,需要扩展潜变量维度。具体地,起始点检测任务为21维(20维音频+1维事件),材质分类任务为37维(20维音频+17维事件),并在流预测头输出后进行拆分(“we augmented the audio latent dimensionality with the number of event classes… and split them into audio and event components after the flow head.”)。 📌 核心摘要 这篇论文针对从静音视频生成音频的实用化需求,提出了MMAudio-LABEL框架。其要解决的问题是,现有方法要么只生成音频而缺乏事件级信息,要么采用“生成后检测”的流水线,易受误差累积影响且丢失视觉上下文。方法核心是构建一个“事件感知”的生成框架,联合学习音频生成和帧级声音事件预测,而不是后接独立的分类器。与已有方法相比,新在提出了“联合头”(Joint Heads)架构,将事件逻辑值视为连续变量并加入噪声,与音频潜变量拼接后,由统一的流匹配生成头在同一个生成轨迹内联合预测音频和事件,从而在共享的潜空间中更好地融合视觉、音频和事件信息。主要实验结果显示,在Greatest Hits数据集上,该方法在起始点检测(Onset Detection)的准确率从基线的46.7%提升至75.0%,材料分类(Material Classification)的准确率从40.6%提升至61.0%,同时生成音频的质量(MCD指标)也得到提升。实际意义在于,该方法为视频到音频合成提供了更可解释和实用的输出(音频+对齐的事件标签),有助于音视频内容创作。主要局限性是评估局限于特定的打击类动作数据集,缺乏更广泛音频事件和复杂场景的验证;此外,论文未提供开源代码或模型权重,影响了可复现性。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 373 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #流匹配 #基准测试 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学; 阿里巴巴通义团队) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学; 阿里巴巴通义团队)、Kaicheng Luo(阿里巴巴通义团队)、Wen Wang(阿里巴巴通义团队)、Qian Chen(阿里巴巴通义团队)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴通义团队)、Jieping Ye(阿里巴巴通义团队)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点:论文首次将强化学习与分解式思维链(CoT)相结合,应用于视频到音频生成,巧妙地将一个复杂的多目标优化问题分解为四个可解释、可优化的维度,并提供了高效训练算法(Fast-GRPO)和高质量评测基准(AudioCanvas)。短板:该框架高度依赖一个强大的多模态语言模型(如VideoLLaMA2)来生成高质量的CoT训练数据,且音频基础模型本身也采用了多种现有先进组件(如VideoPrism、T5-Gemma),其“从零到一”的原创性贡献相对有限。 🔗 开源详情 代码:论文承诺将公开完整代码,但未提供具体仓库链接。 模型权重:论文承诺将公开所有模型权重。 数据集:论文承诺将公开自建的AudioCanvas基准测试集。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了非常详细的附录,包括训练细节、超参数、资源需求、CoT生成Prompt等,复现信息充分。 论文中引用的开源项目:依赖的开源项目/模型包括:Stability AI的VAE、VideoPrism、T5-Gemma、VideoLLaMA2、MS-CLAP、Synchformer、Meta Audiobox Aesthetics、StereoCRW、Gemini 2.5 Pro(用于数据生成)。 📌 核心摘要 本文针对视频到音频(V2A)生成任务中存在的“目标纠缠”(语义、时序、美学、空间等目标相互冲突)和缺乏人类偏好对齐的问题,提出了PrismAudio框架。其核心方法是将单一的推理路径分解为四个专门的CoT模块(语义、时序、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。与现有方法相比,新在:1)首次在V2A中整合分解CoT与多维RL;2)提出Fast-GRPO算法,通过混合ODE-SDE采样大幅降低训练开销;3)构建了更严谨的AudioCanvas基准测试集(包含300类单事件和501个多事件场景)。实验结果表明,在VGGSound测试集上,PrismAudio在语义一致性(CLAP: 0.47 vs. 0.43)、时序同步性(DeSync: 0.41 vs. 0.55)和空间准确性(CRW: 7.72 vs. 13.47)等指标上均优于此前SOTA的ThinkSound,并在主观评测中获得最高MOS分数。其实际意义在于为V2A生成提供了一个可解释、可精细控制且对齐人类偏好的新范式。主要局限性在于训练过程依赖LLM生成的CoT数据和多阶段训练,计算成本较高。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 316 words

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #时频分析 #损失函数 #优化算法 🔥 8.5/10 | 前25% | #音频生成 | #时频分析 | #损失函数 #优化算法 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 +0.8 | 置信度 高 👥 作者与机构 第一作者:Christopher Mitcheltree (伦敦玛丽女王大学数字音乐中心) 通讯作者:未明确指定。根据作者列表和惯例,通常为最后作者或通讯作者列表,论文中为Vincent Lostanlen (Nantes Université, LS2N) 和 Mathieu Lagrange (Nantes Université, LS2N)。 作者列表:Christopher Mitcheltree(伦敦玛丽女王大学数字音乐中心)、Vincent Lostanlen(Nantes Université, LS2N)、Emmanouil Benetos(伦敦玛丽女王大学数字音乐中心)、Mathieu Lagrange(Nantes Université, LS2N) 💡 毒舌点评 亮点:论文精准地解决了“感知损失函数计算太贵”这一工程痛点,通过巧妙的随机采样与优化技巧,在速度和精度之间找到了一个令人满意的平衡点,使得JTFS这类优质但昂贵的损失函数能够真正用于模型训练。 短板:方法对散射路径的采样策略(尤其是低频路径)较为粗放,在TR-808实验中表现出对音频衰减部分建模能力的显著下降,暗示其对长尾、稀疏信息路径的处理策略有待进一步优化。 🔗 开源详情 代码:论文明确指出代码、音频样本和配置文件已发布,并提供了Python包SCRAPL。链接为:https://christhetree.github.io/scrapl/。 模型权重:论文中未提及公开预训练模型权重。 数据集:TR-808任务使用了公开数据集(Samples from Mars TR-808),但论文未提供其独立下载链接。颗粒和啁啾合成器的数据由合成器程序动态生成。 Demo:提供了配套网站展示音频样本:https://christhetree.github.io/scrapl/。 复现材料:提供了完整的训练细节、超参数(附录E)、配置文件和复现说明。 引用的开源项目:论文未明确列出依赖的开源工具/模型库,但代码实现可能依赖PyTorch、nnAudio(CQT工具)等。 📌 核心摘要 这篇论文针对小波散射变换(尤其是联合时频散射变换,JTFS)作为神经网络损失函数时计算成本过高的问题,提出了SCRAPL(Scattering with Random Paths for Learning)。其核心思想是通过在每个训练步骤中随机采样少量(通常为一个)散射路径来近似全路径损失的梯度,从而将计算复杂度从与路径数P成正比降低到常数级。为稳定这一随机近似过程,作者提出了三项技术创新:1)路径自适应矩估计(P-Adam);2)路径随机平均梯度加速法(P-SAGA);3)基于合成器参数敏感性的θ-重要性采样(θ-IS)初始化策略。实验在三个无监督声音匹配任务(颗粒合成器、啁啾合成器、Roland TR-808鼓机)上进行。在颗粒合成任务中,SCRAPL在参数估计误差上仅比全路径JTFS高约1.5倍(65.7‰ vs. 42.4‰),但计算成本降低了约25倍(89.8ms vs. 1730ms),达到了帕累托最优(见图1)。在更复杂的TR-808鼓机匹配中,SCRAPL能稳定地保持声音的瞬态特征,即使在输入音频未对齐(meso设置)时也优于多尺度谱损失(MSS)。本文的主要贡献在于提供了一个实用且开源的框架,使得具有感知保证的散射变换损失能高效地应用于音频生成模型的训练,其局限性在于对部分音频特征(如衰减)的采样代表性不足。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 516 words