扩散模型 | 语音/音乐/音频论文速递

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

📄 Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation #语音合成 #多任务学习 #扩散模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.6/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #多任务学习 | #扩散模型 | arxiv 👥 作者与机构作者：Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie 机构：1 Northwestern Polytechnical University, China; 2 Kuaishou Technology, China; 3 Beijing Institute of Technology, China; 4 Institute of Automation, Chinese Academy of Sciences, China; 5 University of Science and Technology of China, China; 6 Shanghai Jiao Tong University, China 邮箱：ziyu_zhang@mail.nwpu.edu.cn, lxie@nwpu.edu.cn ...

UAT: Unified Audio-Text Diffusion for Audio Generation, Editing, and Captioning

📄 UAT: Unified Audio-Text Diffusion for Audio Generation, Editing, and Captioning #扩散模型 #音频生成 8.5/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.5/10 | 前25% | #音频生成 | #扩散模型 | arxiv 👥 作者与机构本文由南开大学、腾讯、上海交通大学、香港科技大学和Noiz AI的研究人员共同完成。第一作者是Hui Wang（南开大学和腾讯），通讯作者是Yong Qin（南开大学）。 💡 毒舌点评这篇工作提出了一个有趣且有价值的问题：如何用一个单一的扩散模型统一音频生成、编辑和理解（字幕）。其“扩散中心”的路线与主流的AR中心或混合架构形成对比，具有新颖性。技术上，通过双流DiT实现音频（连续扩散）和文本（离散掩码扩散）的耦合是合理的创新点。实验也较为充分，验证了统一模型在多个任务上的竞争力。然而，论文的贡献声明（如“首个”）需要审慎评估。其在字幕生成任务上的性能虽然“有竞争力”，但与顶尖的专用模型（如Audio Flamingo 3）仍有明显差距，这在“统一”的光环下容易被忽略。消融实验揭示了生成与理解之间的权衡，这一点很好，但作者对此的讨论似乎偏乐观。此外，论文未开源代码和完整训练数据，这在一定程度上削弱了其可复现性和影响力。整体而言，这是一篇扎实的工作，为扩散模型在统一多模态建模中的应用提供了新的视角和实证，但尚未达到颠覆性的水平。 📌 核心摘要本文提出了UAT，据称是首个以扩散为中心的统一框架，支持音频生成、编辑和字幕生成。为解决传统文本到音频扩散模型中音频流更新而文本条件固定的不对称性问题，UAT引入了一个与预训练音频扩散骨干（AudioX）耦合的轻量文本流，形成动态双流扩散Transformer（DiT）。该架构同时处理连续音频潜变量（通过连续扩散）和离散文本词元（通过掩码离散扩散），实现双向音频-文本建模。实验表明，UAT在保持强大的音频生成和编辑能力的同时，达到了有竞争力的音频字幕性能，在声学合成与语义预测之间取得了良好平衡。 🔗 开源详情代码：论文中未提供UAT官方代码仓库的链接。模型权重：论文中未提供UAT最终训练模型权重的下载链接。仅提及预训练初始化使用的AudioX权重链接：https://huggingface.co/HKUSTAudio/AudioX。数据集：论文中未提供UAT最终合并训练数据集的直接下载链接。但明确指出了其由四个公开数据集构建，并提供了其中AudioCaps 2.0的GitHub仓库链接：https://github.com/cdjkim/audiocaps/tree/master/dataset2.0。其他数据集（AudioSetCaps, VGGSound, WavCaps）通过引用提供。 Demo：论文提供了在线演示示例链接：https://UAT-demo.github.io。复现材料：论文中提及了训练超参数、硬件环境等细节，但未提供训练配置文件、检查点或预处理脚本的下载链接。论文中引用的开源项目：评估工具：AAC-metrics (https://github.com/Labbeti/aac-metrics)， CLAP (https://github.com/LAION-AI/CLAP)。基线评估框架：ms-swift (https://github.com/modelscope/ms-swift)。对比实验的基线模型：Tango 2 (https://huggingface.co/declare-lab/tango2), AudioLDM (https://huggingface.co/cvssp/audioldm), AudioLDM 2 (https://huggingface.co/cvssp/audioldm2), MAGNeT (https://huggingface.co/facebook/audio-magnet-medium), Stable Audio Open (https://huggingface.co/stabilityai/stable-audio-open-1.0), AudioX (https://huggingface.co/HKUSTAudio/AudioX), MiDashengLM (https://huggingface.co/mispeech/midashenglm-7b-0804-fp32), Qwen2-Audio (https://huggingface.co/Qwen/Qwen2-Audio-7B), Qwen3-Omni (https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct), Audio Flamingo 2 (https://huggingface.co/nvidia/audio-flamingo-2), Audio Flamingo 3 (https://huggingface.co/nvidia/audio-flamingo-3/), AP-adapter (https://huggingface.co/cvssp/audioldm2), MusicGen (https://huggingface.co/facebook/musicgen-large)。 🏗️ 方法概述和架构 UAT的核心目标是将文本到音频生成、文本引导音频编辑和音频字幕生成三个任务统一在一个扩散中心的框架内。其方法核心在于设计一个能同时处理连续音频信号和离散文本词元的联合扩散模型，具体架构如图2所示。 ...

A Comparison of Generative and Discriminative Methods for Speech Enhancement: Robustness, Complexity, and Hallucination

📄 A Comparison of Generative and Discriminative Methods for Speech Enhancement: Robustness, Complexity, and Hallucination #语音增强 #生成对抗网络 #扩散模型 #生成模型 8.3/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.3/10 | 前25% | #语音增强 | #生成对抗网络 | #扩散模型 #生成模型 | arxiv 👥 作者与机构论文作者单位为德国弗劳恩霍夫通信研究所（Fraunhofer IIS）与弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校（FAU）的联合机构。作者未在提供的文本中列出。 💡 毒舌点评这篇论文本质上是一份“赛马报告”。它不发明新马，而是把市面上几种著名的马（判别式、GAN、扩散、流匹配、一致性模型）拉到同一赛道（低/高信噪比条件，匹配/失配数据），用一套相对公平的规则（统一骨干网络NCSN++，多维度指标）比了一圈。优点是比得够全、够系统，尤其是把计算复杂度（GMACs）和幻觉（WER/CER）这两个工程上的痛点拿到了台面上，这对工业界选型有直接参考价值。但它也有点“水”：所有模型都基于NCSN++这一种骨干网络进行比较，虽然保证了公平性，却也严重限制了结论的普适性——不同的生成模型（如基于U-Net的）性能可能有天壤之别。更致命的是，全文未开源任何代码或模型，对于一篇标榜“比较”和“实践指导”的论文，这简直是“只许州官放火”，让其他人无法复现和验证其结论，也失去了作为基准的最大价值。审稿人对此绝不客气。 📌 核心摘要本研究对生成式（扩散模型、条件流匹配、一致性模型、GAN）与判别式深度学习方法在语音增强降噪任务中的表现进行了全面的实证比较。研究在多种场景（高/低信噪比、匹配/失配训练条件）下展开，并系统评估了性能、模型复杂度（GMACs、参数量）及生成式方法特有的幻觉特性（WER、CER、LPS）。核心结论如下：1）在低信噪比场景下，GAN方法在多数客观指标（尤其是PESQ、FwSegSNR）上显著优于判别式和扩散式方法；2）扩散式方法因其迭代生成过程导致计算复杂度远高于单步推理的方法（如判别式、GAN），而性能增益通常不足以抵消其高昂成本；3）GAN方法的训练收敛速度和数据效率优于扩散式方法；4）生成式方法在中等信噪比下幻觉有限，但在极低信噪比（低于-7dB）下会产生显著幻觉和虚假频谱内容。论文为研究者和实践者在语音增强方法选型上提供了基于实证的权衡依据。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文主要使用“Interspeech 2020 DNS Challenge dataset”作为训练和评估数据集，提供了获取链接：https://dns4public.github.io/dns4public/ 。低SNR评估数据集引用自 [shetu2025leveraging]。 Demo：论文中未提及复现材料：论文中未提供具体的训练配置、检查点或附录等复现材料。论文中引用的开源项目： Whisper (base) ASR system: 用于评估幻觉效应。链接为：https://github.com/openai/whisper JiWER toolkit: 用于计算WER和CER。链接为：https://github.com/jitsu/jiwer Interspeech 2020 DNS Challenge dataset: 论文核心使用的数据集。链接为：https://dns4public.github.io/dns4public/ SGMSE+：论文中作为扩散模型代表之一。其原始论文链接为：https://arxiv.org/abs/2208.05843，代码仓库链接未提及。 BBED：论文中作为扩散模型代表之一。其原始论文链接为：https://arxiv.org/abs/2309.11124，代码仓库链接未提及。 GALDSE：论文中作为扩散模型代表之一。其原始论文链接为：https://arxiv.org/abs/2405.05565，代码仓库链接未提及。 FlowSE：论文中作为条件流匹配模型代表。其原始论文链接为：https://arxiv.org/abs/2410.01561，代码仓库链接未提及。 SEBridge：论文中作为一致性模型代表。其原始论文链接为：https://arxiv.org/abs/2310.16812，代码仓库链接未提及。 NoCoGAN / DisCoGAN：论文中作为GAN模型代表。其原始论文链接为：https://arxiv.org/abs/2501.17348，代码仓库链接未提及。 CMGAN：论文中作为GAN模型代表。其原始论文链接为：https://arxiv.org/abs/2206.12884，代码仓库链接未提及。 DCCRN：论文中作为判别式模型代表。其原始论文链接为：https://arxiv.org/abs/2008.00264，代码仓库链接未提及。 GCRN：论文中作为判别式模型代表。其原始论文链接为：https://arxiv.org/abs/1811.02771，代码仓库链接未提及。 NCSN++：论文中用作多种方法（扩散、GAN、判别式）的骨干网络。其原始论文链接为：https://arxiv.org/abs/2011.13456，代码仓库链接未提及。 🏗️ 方法概述和架构本文的核心是进行一项大规模实证研究，其“方法”指的是论文为实现比较目标而设计的实验框架和流程，而非提出一种新的模型架构。具体架构和流程如下： ...

Cosmos 3: Omnimodal World Models for Physical AI

📄 Cosmos 3: Omnimodal World Models for Physical AI #多模态模型 #扩散模型 #音频生成 #强化学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构论文作者：NVIDIA（英伟达）。贡献者来自NVIDIA的多个部门，包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。 💡 毒舌点评 Cosmos 3是一篇典型的“巨无霸”式工业技术报告，旨在通过发布一个全模态（语言、图像、视频、音频、动作）统一模型，为Physical AI（机器人、自动驾驶）提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上（MoT）和训练策略上（分阶段、多模态课程）都有扎实的工程实践，并在多个SOTA榜单上取得了优异成绩。然而，它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力，而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示，但在分析某个具体子问题（如长尾物理规律的建模、跨具身迁移的理论基础）时深度有限。更关键的是，作为一篇技术报告，其“自我声明”的局限性部分（sim-to-real gap等）论述得相当克制，甚至可以说是轻描淡写，对于一篇宣称要解决真实世界Physical AI问题的工作来说，这需要读者自己更批判性地审视。开源程度很高，但模型的巨大规模和复杂的基础设施栈，使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。 📌 核心摘要 Cosmos 3 是一个统一的全模态世界模型家族，旨在联合处理和生成语言、图像、视频、音频和动作序列，以支持Physical AI（具身智能）。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构：一个自回归Reasoner路径负责理解和推理，一个扩散Generator路径负责生成，两者通过双流联合注意力机制交互。模型采用多阶段训练流程，Reasoner先在大规模图文/视频-文本数据上预训练，再在Physical AI任务上微调；Generator则采用渐进式多模态课程训练，从图像、视频、音频预训练开始，逐步引入动作和传输数据进行中期训练，最后在特定领域数据上进行后训练。评估显示，Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平，其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型，在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。 ...

Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening

📄 Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening #语音合成 #扩散模型 #生成模型 7.1/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音合成 | #扩散模型 | #生成模型 | arxiv 👥 作者与机构 Xinqi Bao: KTH Royal Institute of Technology, Stockholm, Sweden; Karolinska Institutet (KI), Stockholm, Sweden Jia Bi: Rutherford Appleton Laboratory, United Kingdom Xin Chen: Peng Cheng Laboratory, China Ernest Nlandu Kamavuako: King’s College London, United Kingdom Saikat Chatterjee: KTH Royal Institute of Technology, Stockholm, Sweden ...

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构作者：Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构：南京大学智能科学与技术学院，Video Rebirth，上海交通大学，北京交通大学，上海人工智能实验室 ...

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech

📄 DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech #语音合成 #扩散模型 #流匹配 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前25% | #语音合成 | #扩散模型 | #流匹配 | arxiv 👥 作者与机构 Xu Zhang, Longbing Cao, Zhangkai Wu。三人均来自麦考瑞大学前沿人工智能研究中心（Frontier AI Research Centre, Macquarie University）。 💡 毒舌点评这篇工作想法巧妙，将表示工程（representation engineering）的概念移植到了语音合成领域，且实验范围很广。但几个问题不容忽视：1）梅尔空间引导部分的核心公式（Eq.5）中梯度计算细节模糊，例如如何通过可微分声码器计算\(\nabla_{\widehat{\mathbf{x}}_{0}}\,\mathcal{L}_{\mathrm{emo}}\)，是端到端微分还是代理梯度？这严重影响方法的可复现性和严谨性。2）主观评估的样本量（36样本×20人）对于支撑“最高情感适度性”的结论略显单薄。3）尽管实验了五个骨干，但StableTTS上的性能（平均48.8%）与其它骨干差距明显，且该骨干架构相对简单，是否暗示DUET对模型容量或架构复杂度有隐含依赖？论文对此讨论不足。4）开源仅提供了引用项目的链接，DUET本身无任何开源材料，这在声称“plug-and-play”和“复现性”的今天是重大减分项。 📌 核心摘要本文发现，在未经情感监督预训练的扩散与流匹配TTS模型中，情感信息在隐藏状态里表现为一个可线性解码的方向，且该方向与编码说话人身份的方向近似正交。基于此发现，本文提出了DUET框架，这是一个即插即用的方法，通过在去噪的每一步统一执行双空间控制来实现情感生成：1) 在隐藏空间，沿探测得到的情感方向对特定层的隐藏状态进行范数自适应的引导；2) 在梅尔空间，通过将外部情感识别器的损失梯度经由可微分声码器反向传播，对清洁梅尔频谱估计进行引导。实验表明，在五个不同的预训练TTS骨干上，DUET在三个数据集上的平均情感识别准确率超过了10个监督学习基线模型，并在主观评价中获得了最高的情感适度性评分。此外，DUET在Ameca人形机器人上的部署展示了其在具身情感交互中的应用潜力。 ...

AnchorSteer: Self-Discovered Concept Injection for Structure-Preserving Music Editing

📄 AnchorSteer: Self-Discovered Concept Injection for Structure-Preserving Music Editing #扩散模型 #自监督学习 #音乐生成 🔥 8.6/10 | 前50% | #音乐生成 | #自监督学习 | #扩散模型 | arxiv 学术质量 5.3/7 | 影响力 1.6/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者: Chih-Heng Chang, Keng-Seng Ho, Chih-Yu Tsai, Kuan-Lin Chen, Yi-Hsuan Yang, Jian-Jiun Ding 机构: National Taiwan University 📌 核心摘要本文针对基于扩散模型的音乐编辑任务中存在的“语义编辑能力”与“结构保真度”之间的根本性矛盾，提出了AnchorSteer框架。该框架通过显式解耦并协同两种机制来解决此矛盾：1) 结构锚定：利用预训练的MuseControlLite适配器，注入显式的旋律、节奏等结构条件，严格约束生成过程的时间对齐和结构骨架。2) 语义引导：提出一种自监督方法，从预训练扩散模型的内部隐藏状态空间（h-space）中，无需人工标注数据，自动发现并学习可解释的“概念向量”（如“钢琴音色”或“爵士风格”）。这些概念向量被封装成即插即用的注入模块，在推理时与结构锚定器协同工作，向模型隐藏层提供额外的语义驱动力。论文还设计了两种注入变体：非条件注入（静态向量，更利于结构保真）和条件注入（基于当前隐藏状态的轻量网络，在强锚定下实现更鲁棒的语义迁移）。在ZoME-Bench数据集上的实验表明，AnchorSteer（尤其是条件注入变体）在语义编辑强度（GAP分数）上显著优于所有基线，同时保持了与强结构锚定方法相当或可接受的结构保真度。主观试听测试也证实其在目标属性匹配度上表现最佳。 🔗 开源详情代码：https://github.com/hengtsune1024/AnchorSteer 模型权重：论文中未提及具体的模型权重链接。论文指出其骨干模型为预训练的Stable Audio Open (SAO)，但未提供该模型权重的直接下载链接。数据集：使用了ZoME-Bench数据集进行评估，但论文中未提供该数据集的具体下载链接。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及独立的复现材料包（如完整的训练配置、检查点等）。论文在“Implementation details”（5.4节）中提供了详细的实验设置，包括优化器、学习率、训练轮数等超参数。论文中引用的开源项目： Stable Audio Open (SAO)：论文中未提供链接。 Hugging Face Diffusers库：论文中未提供链接。 MuseControlLite：论文中未提供其官方实现的链接。 LAION-CLAP（用于CLAP评估）：论文中提及了具体的模型检查点music_audioset_epoch_15_esc_90.14.pt，但未提供下载链接。 DDPM-Friendly：论文中未提供链接。 SDEdit：论文中未提供链接。 MusicMagus：论文中未提供链接。 🏗️ 方法概述和架构 AnchorSteer框架的核心架构是“结构锚定”与“语义引导”的协同，如论文图1和图4所示。其整体编辑流程（图4）分为两个并行路径处理源音频：一条路径进行结构特征提取（如通过CQT提取旋律、通过节拍检测提取节奏），形成条件序列 \(C_{struct}\)，并输入到MuseControlLite适配器；另一条路径则通过预优化的概念注入模块 \(f_l^*\)。两条路径的输出共同作用于预训练扩散模型（SAO）的隐藏层，引导去噪过程。 ...

Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors

📄 Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors #扩散模型 #生成模型 ✅ 7.4/10 | 前25% | #扩散模型 | #生成模型 | arxiv 学术质量 4.3/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度高 👥 作者与机构 Lingfeng Yao (University of Houston)，Xincong Zhong (University of Houston)，Chenpei Huang (University of Houston)，Xuandong Zhao (Tsinghua University)，Hanqing Guo (University of Houston)，Aohan Li (University of Houston)，Jiang Liu (Nanjing University of Posts and Telecommunications)，Tomoaki Ohtsuki (Keio University)，Miao Pan (Texas A&M University) ...