扩散模型 | 语音/音乐/音频论文速递

DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers

📄 DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers #语音增强 #扩散模型 #Transformer #高保真音频 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #Transformer #高保真音频学术质量 8.5/7 | 选题价值 8.0/2 | 复现加成 8.0 | 置信度高 👥 作者与机构第一作者：Heitor R. Guimarães (INRS-EMT, Université du Québec, Montréal, Canada) 通讯作者：未明确说明（根据作者顺序和单位，通常最后一位或带有†标记的作者可能是通讯作者，但论文中未明确标注）作者列表： Heitor R. Guimarães（INRS-EMT, Université du Québec, Montréal, Canada；其工作在Adobe Research实习期间完成） Jiaqi Su（Adobe Research, San Francisco, California, United States） Rithesh Kumar（Adobe Research, San Francisco, California, United States） Tiago H. Falk（INRS-EMT, Université du Québec, Montréal, Canada） Zeyu Jin（Adobe Research, San Francisco, California, United States） 💡 毒舌点评亮点：该工作首次在主观评测中将语音增强的输出质量提升至与真实录音棚录音（DAPS数据集）“无法区分”的水平（MOS 4.34 vs. 4.30），这是生成式语音增强领域一个重要的里程碑。短板：模型（335M参数）相比多数基线更庞大，且依赖32步的扩散采样，实时性可能受限，其“高保真”优势在资源受限场景下的实用性有待考量；此外，尽管使用了离散编解码器进行后处理，但核心的连续潜在空间扩散仍面临VAE重建瓶颈（如VBD数据集上VAE重建分数低于原生48kHz音频）。 ...

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

📄 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment #歌唱语音合成 #扩散模型 #数据增强 #隐式对齐 ✅ 7.0/10 | 前25% | #歌唱语音合成 | #扩散模型 | #数据增强 #隐式对齐学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Zongcai Du（咪咕音乐，中国移动通信集团公司）通讯作者：未说明作者列表：Zongcai Du（咪咕音乐，中国移动通信集团公司）、Guilin Deng（咪咕音乐，中国移动通信集团公司）、Xiaofeng Guo（咪咕音乐，中国移动通信集团公司）、Xin Gao（咪咕音乐，中国移动通信集团公司）、Linke Li（咪咕音乐，中国移动通信集团公司）、Kaichang Cheng（咪咕音乐，中国移动通信集团公司）、Fubo Han（咪咕音乐，中国移动通信集团公司）、Siyu Yang（咪咕音乐，中国移动通信集团公司）、Peng Liu（咪咕音乐，中国移动通信集团公司）、Pan Zhong（咪咕音乐，中国移动通信集团公司）、Qiang Fu（咪咕音乐，中国移动通信集团公司） 💡 毒舌点评亮点：论文提出了一套精巧的“PseudoSinger”数据构建流程，用“固定旋律+LLM生成歌词”的方式规模化生产高质量训练数据，从根源上缓解了SVS领域的数据饥渴问题。短板：作为核心模型的DiTSinger，其架构本质是DiT在音频领域的直给式应用，隐式对齐机制是主要的架构创新，但整体模型设计的“性感”程度和理论深度稍显不足，更像是一项扎实的工程优化而非范式突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文中构建了大规模数据集，但未提及是否公开或如何获取。 Demo：提供在线演示链接：https://nju-jet.github.io/DiTSinger/。复现材料：论文中给出了主要的训练设置（GPU型号、数量、优化器、学习率、batch size、训练步数、数据比例等），但模型具体配置（如各变体的确切层数、宽度表）和部分训练细节（如学习率调度、精确的推理步数）未完全公开。论文中引用的开源项目：DiffSinger、StyleSinger、TCSinger、M4Singer、HiFi-GAN、DPM-Solver。 📌 核心摘要这篇论文旨在解决歌唱语音合成（SVS）领域面临的训练数据稀缺和对齐标签依赖两大挑战。论文方法的核心包含两部分：1）提出一个两阶段的数据构建管道，通过固定旋律并利用大语言模型（LLM）生成多样歌词，先训练“PseudoSinger”模型，再用其合成大规模（500小时）数据，显著扩充了训练语料。2）设计了DiTSinger模型，一个基于扩散Transformer（DiT）的潜在扩散模型，并引入了一个隐式对齐机制，通过限制音素注意力范围来消除对显式音素时长标注的依赖。与已有方法相比，新在：a) 首次在SVS领域系统性地构建了用于模型训练的大规模合成数据管道；b) 将可扩展的DiT架构引入SVS，并验证了模型和数据的规模效应；c) 提出了一种不依赖显式时长标签的隐式对齐方法，提升了鲁棒性。主要实验结果显示，随着模型规模（从Small到Large）和训练数据量（从30h到530h）的增加，合成质量（以MCD衡量）持续提升（见图3）。最终的DiTSinger L2模型在MOS（4.02）上超过了DiffSinger（3.80）、StyleSinger（3.62）和TCSinger（3.89），同时在F0RMSE（11.18 Hz）等客观指标上也取得了最优结果（见表2）。该工作的实际意义在于提供了一条可扩展的、减少人工标注依赖的高质量歌唱数据合成与模型训练路径。其主要局限性在于：研究仅限于中文数据集，且模型忽略了如演唱技巧等更复杂的风格因素。 ...

DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance #语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kang Yin（中国科学技术大学），Chunyu Qiang（快手科技）（论文标注†表示同等贡献，故两位均为第一作者）通讯作者：Sirui Zhao（中国科学技术大学），Tong Xu（中国科学技术大学），Chen Zhang（快手科技）（论文标注*表示通讯作者）作者列表： Kang Yin（中国科学技术大学） Chunyu Qiang（快手科技） Sirui Zhao（中国科学技术大学） Xiaopeng Wang（快手科技） Yuzhe Liang（快手科技） Pengfei Cai（中国科学技术大学） Tong Xu（中国科学技术大学） Chen Zhang（快手科技） Enhong Chen（中国科学技术大学） 💡 毒舌点评本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案，Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效，实验数据扎实，切实推动了可控TTS在解耦方向上的进步。然而，其创新更多是“优秀的组合”而非“从零的突破”，且说话人相似度这一关键指标不及部分基线，暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。 ...

Do We Need EMA for Diffusion-Based Speech Enhancement? Toward A Magnitude-Preserving Network Architecture

📄 Do We Need EMA for Diffusion-Based Speech Enhancement? Toward A Magnitude-Preserving Network Architecture #语音增强 #扩散模型 #Schrödinger桥 #幅度保持 ✅ 7.5/10 | 前50% | #语音增强 | #扩散模型 | #Schrödinger桥 #幅度保持学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Julius Richter（汉堡大学计算机系信号处理组）通讯作者：未说明作者列表：Julius Richter（汉堡大学计算机系信号处理组）、Danilo de Oliveira（汉堡大学计算机系信号处理组）、Timo Gerkmann（汉堡大学计算机系信号处理组） 💡 毒舌点评亮点：这篇论文最大的价值在于用严谨的实验“破除了一个迷思”——即图像生成领域中常用的长EMA策略在语音增强中并不适用，甚至有害。这为优化扩散模型在音频领域的训练提供了直接、反直觉且实用的结论。短板：模型本身是已有组件（EDM2、MP-ADM、Schrödinger Bridge）的“乐高式”组合，缺乏架构层面的原生创新。其性能（如Table 2）与先前工作（如SB-VE）相比并未取得全面、显著的优势，说服力略有折扣。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/sp-uhh/edm2se。模型权重：论文中明确提到提供“pretrained checkpoints”。数据集：使用了公开的VoiceBank-DEMAND和EARS-WHAM数据集，但论文本身未提供新数据集。 Demo：论文中未提及在线演示。复现材料：提供了详细的训练细节，包括：使用的数据集、STFT预处理方式、扩散过程参数（c, k）、采样步数（50）、优化器（Adam）、学习率（2.5e-3）及衰减策略、批量大小（16）、训练硬件（2x RTX A6000），以及关键的EMA设置建议（σ_rel=0.001）。这些信息足够进行复现。引用的开源项目：基于EDM2的官方实现（https://github.com/NVlabs/edm2）构建。 📌 核心摘要问题：论文旨在解决扩散模型语音增强中两个被忽视的问题：一是网络激活和权重幅度的不可控增长导致的训练不稳定；二是在图像生成中能提升多样性的指数移动平均（EMA）参数平滑技术，在语音增强任务中的作用和最佳配置尚不明确。方法核心：作者提出EDM2SE框架，将EDM2的训练动态和幅度保持（Magnitude-Preserving）架构引入基于Schrödinger桥的语音增强。核心包括：a）采用幅度保持学习层（MP-Add, MP-SiLU）和时间依赖的预条件处理（输入/输出缩放）来稳定训练；b）设计两种跳跃连接配置，使网络分别预测环境噪声（cs=1）或干净语音（cs=0）；c）首次系统分析EMA对语音增强的影响，发现短EMA甚至无EMA优于长EMA。新意：与已有方法（如SGMSE+， SB-VE）相比，新意在于：1）将EDM2的幅度保持理念适配到语音领域的Schrödinger桥模型中；2）对比了预测噪声与预测语音两种设计，揭示其在不同指标上的互补性；3）首次通过实验证明在语音增强中，短EMA或无EMA的性能优于长EMA，这与图像生成领域的认知相反。主要实验结果：在VoiceBank-DEMAND和EARS-WHAM数据集上评估。关键结果：a）如图2所示，EMA长度超过约0.2（相对标准差）后，所有指标（SI-SDR, PESQ等）显著下降。b）如表1所示，两种跳跃连接设计各有优势：cs=1（预测噪声）在PESQ上略优，cs=0（预测语音）在SI-SDR和NISQA上略高。c）如表2所示，在匹配条件下，EDM2SE与SGMSE+、SB-VE性能相当（例如PESQ 2.97 vs 2.93/2.91）；但在失配条件下，EDM2SE表现出更强的鲁棒性（SI-SDR 14.79 vs 10.13/17.71， PESQ 2.69 vs 2.62/2.00）。实际意义：为构建稳定、高效的扩散语音增强模型提供了实践指南，特别是在预条件化、跳跃连接选择和EMA设置上。其“短EMA更优”的发现对优化语音类扩散模型的训练流程有直接参考价值。主要局限：模型架构创新有限，更多是成熟技术的适配与验证。尽管在失配条件下鲁棒性较好，但在最佳匹配条件下的峰值性能未明确超越先前最强基线（如Table 2中SB-VE的SI-SDR更高）。 🏗️ 模型架构 EDM2SE的整体框架是一个基于U-Net结构的条件扩散模型，其核心是幅度保持的扩散模型架构（MP-ADM），并适配了Schrödinger桥（SB）的条件过程。 ...

DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling

📄 DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling #语音对话系统 #意图识别 #槽填充 #扩散模型 #鲁棒性 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #意图识别 #槽填充学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siqi Yang（电子科技大学）通讯作者：Fan Zhou（电子科技大学；智能数字媒体技术四川省重点实验室；喀什电子与信息产业研究院）作者列表：Siqi Yang（电子科技大学），Yue Lei（电子科技大学），Wenxin Tai（电子科技大学），Jin Wu（电子科技大学），Jia Chen（电子科技大学），Ting Zhong（电子科技大学），Fan Zhou*（电子科技大学；智能数字媒体技术四川省重点实验室；喀什电子与信息产业研究院） 💡 毒舌点评这篇论文巧妙地将扩散语言模型（DLM）的并行生成能力用于纠正ASR转录错误，并通过一个轻量级的自适应先验模块来解决DLM可能“改对为错”的痛点，想法很实用。不过，整个框架的性能瓶颈和复杂度高度依赖于所使用的DLM（如LLaDA），自适应先验模块本身也可能引入新的错误（例如错误地掩码了本应保留的token），论文对此的边界讨论不足。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/ICDM-UESTC/DOMA。模型权重：论文未提及DOMA中的自适应先验（AP）模块权重是否开源。所使用的DLM（LLaDA-8B-Instruct）为第三方开源模型。数据集：论文使用的是公开的基准数据集（SLURP, ATIS, SNIPS），未提及对数据集的修改或私有部分。 Demo：论文中未提及在线演示。复现材料：论文提供了关键的超参数设置（假设数N=5，门控阈值p=0.5，生成长度64，扩散步数32）、优化器学习率（1e-5）、训练轮数（10 epochs）以及骨干模型（RoBERTa-base），但未提供更详细的训练配置（如batch size）、检查点、完整训练日志或附录中的额外设置。论文中引用的开源项目：论文明确提到使用了开源的LLaDA模型（[14] Nie et al., ICLR 2025 Workshop），以及作为下游骨干的RoBERTa [20]。ASR使用了Whisper Large-v3。 📌 核心摘要本文针对自动语音识别（ASR）错误会传播并损害下游口语理解（SLU）任务（如意图分类和槽填充）性能的问题，提出了一个模型无关的框架DOMA。DOMA的核心是使用扩散语言模型（DLM）对ASR转录文本进行细化，并引入了一个自适应先验（AP）机制来引导DLM的生成过程。具体来说，DOMA首先使用DLM生成多个候选细化假设，然后利用一个轻量级的、可训练的AP模块（包含自注意力和门控机制）来识别并保留原始ASR转录中可能正确的token，从而构建一个部分掩码的初始序列，而非从完全掩码开始生成。这有助于减少DLM的过度纠正，同时减少所需的扩散步数，提升推理效率。在SLURP、ATIS和SNIPS三个基准数据集上的实验表明，DOMA在多种基线模型（如RoBERTa, SpokenCSE）上一致提升了ICSF性能，相对提升最高达3.2%（例如，DOMA+SpokenCSE在SLURP上的IC准确率从85.51%提升至88.26%）。同时，与自回归LLM细化方法相比，DOMA将推理延迟降低了34.8%（RTF从0.66降至0.43）。该框架的意义在于为提升SLU系统对ASR错误的鲁棒性提供了一种高效、通用的后处理方案。主要局限性在于其效果依赖于强大的预训练DLM（如LLaDA-8B），且AP模块的训练需要额外数据和计算资源。 ...

Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization

📄 Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization #语音合成 #扩散模型 #强化学习 #语音情感识别 🔥 8.0/10 | 前25% | #语音合成 | #扩散模型 #强化学习 | #扩散模型 #强化学习学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未明确说明（论文未明确指定通讯作者，但根据邮箱{jshi12, hdu02, ygao18}@wm.edu 推断，作者可能来自同一实验室）作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Yangfan He（University of Minnesota - Twin Cities）、Y. Alicia Hong（George Mason University）、Ye Gao（College of William & Mary） 💡 毒舌点评本文最亮眼的地方在于其核心洞察：在扩散模型中，直接将终点偏好传播到中间步骤是“有缺陷的假设”，并为此设计了优雅的“逐步对齐”框架（EASPO），这确实为情感等需要时序精细控制的任务提供了新的思路。然而，其提出的EASPM评分模型重度依赖CLEP在特定情感数据集上的微调，其泛化能力，尤其是在不同说话人、语言和更复杂情感维度上的表现，是最大的潜在短板，且实验仅在英语数据集上验证。 ...

FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec

📄 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec #语音转换 #扩散模型 #零样本 #语音编解码器 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yurii Halychanskyi（University of Illinois Urbana-Champaign, The Grainger College of Engineering, Siebel School of Computing and Data Science）通讯作者：未说明作者列表：Yurii Halychanskyi（UIUC）、Cameron Churchwell（UIUC）、Yutong Wen（UIUC）、Volodymyr Kindratenko（UIUC） 💡 毒舌点评亮点在于巧妙地将扩散模型的噪声控制机制转化为口音强度的“旋钮”，首次实现了在口音转换中对“转多少”的显式、平滑控制，这对实际应用非常友好。短板是训练数据“作弊”——只用了美式英语单说话人（LJSpeech），这好比只学会了标准答案却没练习过如何修改各地“方言”作业，其面对真正多样化非母语口音时的泛化能力和适应性存疑，而论文对此缺乏深入验证。 🔗 开源详情代码：提供代码仓库链接：https://claussss.github.io/accent_control_demo/ 模型权重：论文中未提及是否公开预训练模型权重。数据集：训练集LJSpeech和评测集L2-Arctic均为公开数据集，论文中给出了使用方式。 Demo：论文提供的网站链接即为Demo页面（同上）。复现材料：提供了完整的训练细节（优化器、学习率、批大小、epoch数、硬件）、模型架构细节、预处理流程（文本归一化、音素转换、对齐工具），以及关键超参数（网络尺寸、噪声调度、推理步数）。引用的开源项目：Nvidia NeMo文本归一化、Phonemizer、Wav2Vec2 XLSR（对齐）、FACodec、Whisper（评测）、SpeechBrain/WavLM（说话人相似度评测）。 📌 核心摘要问题：现有的口音转换方法缺乏对转换强度的显式控制，难以在“更地道”和“更像本人”之间灵活权衡。方法核心：提出FAC-FACodec框架，利用FACodec将语音解耦，仅对内容（发音）潜变量zc1进行建模。在训练时，模型学习从加噪的zc1中恢复出美式英语的先验分布。在推理时，通过选择初始加噪的时间步t_start来控制转换强度：t_start越大，表示从越“混乱”的状态开始去噪，结果越偏向先验（美式发音），但可能丢失更多原始特征。创新点：这是首个提供用户可控参数来调节口音转换强度的框架；仅需目标口音（美式英语）的语音和转录文本进行训练，实现零样本转换；专注于发音层面的修改，严格保留说话人的韵律和音色。主要实验结果：在L2-Arctic数据集（6种非母语口音）上测试，随着t_start从25增至100，美式口音分类器得分（Acc）从72.22平均提升至89.86，而说话人相似度（SS）从0.97降至0.88，词错误率（WER）从0.07升至0.15，证明了转换强度与身份保留之间的可控权衡。与基线系统相比，在 t_start=100时，本方法在说话人相似度和WER上持平或更优，但在口音得分上通常低于同时重构韵律的系统。关键数据表（节选）： ...

Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models

📄 Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models #音频生成 #检索增强 #大型音频模型 #扩散模型 ✅ 6.5/10 | 前25% | #音频生成 | #检索增强 | #大型音频模型 #扩散模型学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Junqi Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing）通讯作者：Wenwu Wang（University of Surrey， CVSSP）作者列表： Junqi Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing） Chenxing Li（Tencent AI Lab， Beijing） Jinzheng Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing） Rilin Chen（Tencent AI Lab， Beijing） Dong Yu（Tencent AI Lab， Seattle） Mark D. Plumbley（University of Surrey， CVSSP） Wenwu Wang（University of Surrey， CVSSP）（通讯作者） 💡 毒舌点评亮点在于其“反馈驱动”的框架设计很巧妙，让一个大型音频模型（LALM）去检查另一个生成模型（TTA）的作业，找出了“漏写的声音”，然后去资料库（检索数据库）里找参考答案补上，实现了一种通用且低成本的性能增强。短板是这套流程的“下限”严重依赖那个外部资料库（音频数据库）的全面性和质量，论文中并未充分探讨当数据库里没有合适参考或LALM“找错题”时的容错机制，且评估指标虽然全面，但未能揭示在极端复杂音频场景下的具体失效模式。 ...

FODGE : High-Fidelity Dance Generation via Full-Body Optimization

📄 FODGE : High-Fidelity Dance Generation via Full-Body Optimization #音频生成 #扩散模型 #全身优化 ✅ 6.5/10 | 前50% | #音频生成 | #扩散模型 | #全身优化学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaoying Huang（中国传媒大学信息与通信工程学院）通讯作者：Long Ye（中国传媒大学数据科学与媒体智能学院，媒体融合与传播国家重点实验室）作者列表：Xiaoying Huang（中国传媒大学信息与通信工程学院）、Sanyi Zhang（中国传媒大学数据科学与媒体智能学院，媒体音视频教育部重点实验室）、Qin Zhang（媒体音视频教育部重点实验室）、Xiaoxuan Guo（中国传媒大学信息与通信工程学院）、Long Ye（中国传媒大学数据科学与媒体智能学院，媒体融合与传播国家重点实验室） 💡 毒舌点评论文的亮点在于清晰地指出了现有方法将“滑步”一律视为错误的问题，并通过设计优雅的FRB模块来区分和保留艺术性滑步，同时将约束从脚部拓展至全身，实验效果显著。短板在于其核心生成架构（两阶段Transformer扩散网络）几乎是LODGE的复用，创新更多体现在“约束”和“后处理”上，属于针对特定问题的工程优化而非范式突破，且完全未开源。 🔗 开源详情代码：论文中未提及代码链接。项目主页（https://yccccm.github.io/FODGE-page/）在论文撰写时尚未确认是否包含代码仓库。模型权重：未提及公开权重。数据集：使用的是公开的FineDance数据集，但论文未说明获取方式（通常可从原数据集作者处获取）。 Demo：未提及在线演示。复现材料：论文提供了一些训练细节（如优化器、学习率、GPU型号、训练时长），但未提供完整的配置文件、检查点或附录说明。论文中引用的开源项目：引用了Librosa用于音频特征提取，SMPL用于人体模型表示。 📌 核心摘要要解决什么问题：现有音乐驱动的舞蹈生成方法在追求物理真实性时（如消除滑步），会错误地抑制舞蹈中固有的艺术性滑步（如太空步），同时忽视了手臂穿透等局部不自然问题，损害了生成舞蹈的艺术表现力。方法核心是什么：提出FODGE框架，包含两部分：(1) Full-body Refinement Block (FRB)：在扩散模型训练时引入，通过学习脚部滑动与手臂运动的相关性作为优化线索，联合约束四肢动作，以消除手臂穿透等伪影并保留艺术滑步。(2) Full-body Optimization Post-processing module (FOP)：一个免训练的后处理模块，在推理后对整个序列进行校正，包括修正段落衔接不连续、基于物理先验调整全局根轨迹以缓解滑步，以及约束头部旋转至生理合理范围。 ...

Gdiffuse: Diffusion-Based Speech Enhancement with Noise Model Guidance

📄 Gdiffuse: Diffusion-Based Speech Enhancement with Noise Model Guidance #语音增强 #扩散模型 #领域适应 #鲁棒性 ✅ 7.0/10 | 前25% | #语音增强 | #扩散模型 | #领域适应 #鲁棒性学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Efrayim Yanir（特拉维夫大学）通讯作者：未说明作者列表：Efrayim Yanir（特拉维夫大学）、David Burshtein（特拉维夫大学）、Sharon Gannot（巴伊兰大学） 💡 毒舌点评论文巧妙地将一个庞大的语音生成扩散模型“冻结”起来，仅用一个172参数的噪声模型通过测试时训练进行“遥控”，实现了对新噪声的灵活适应，这个“四两拨千斤”的思路确实新颖。然而，论文声称“噪声统计在训练和推理间保持稳定”是核心假设，但仅用20秒噪声片段训练就断言其统计特性稳定可靠，这个前提在复杂多变的现实声学环境中显得有些理想化，可能成为其实用性的阿喀琉斯之踵。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文中未提及公开的预训练权重链接。文中提到使用UnDiff项目预训练的DiffWave，但未给出其具体获取方式。数据集：训练和测试使用了LibriSpeech（公开）和BBC Sound Effects Archive（公开）。但论文未提供其处理后的具体数据划分或下载脚本。 Demo：论文提供了一个示例网站链接：https://ephiephi.github.io/GDiffuSE-examples.github.io，可能包含音频示例。复现材料：论文描述了噪声模型的具体架构（WaveNet风格CNN，参数细节）、指导调度公式（11）及超参数（γ, λ_max），以及训练轮数的大致范围，提供了一定的复现基础。但优化器学习率、噪声样本的具体处理方式等细节未充分说明。引用的开源项目：提到了UnDiff [15]（用于获取预训练DiffWave）和WaveNet [20]（噪声模型架构的灵感来源）。开源计划：论文中未提及明确的后续开源计划。 📌 核心摘要问题：传统判别式语音增强模型在匹配条件下表现好，但面对未见过的噪声类型时泛化能力差，易产生伪影。现有的生成式（特别是基于扩散的）语音增强方法虽然性能优越，但往往需要为每种预期噪声专门训练庞大的模型，适应性差且成本高。方法核心：提出GDiffuSE，一个基于去噪扩散概率模型（DDPM）的语音增强框架。其核心是利用一个极轻量（172参数）的噪声模型，在测试时通过少量目标噪声样本进行快速训练。在扩散模型的反向生成过程中，利用该噪声模型的似然函数梯度作为“指导信号”，引导一个预训练的、冻结的语音生成扩散模型（DiffWave）生成干净语音。新意：与现有方法（如直接条件扩散或需重训大模型）不同，GDiffuSE首次将DDPM引导机制与测试时训练相结合，并专门针对语音增强设计了噪声模型指导策略。它解耦了通用语音先验学习和特定噪声适应，使系统能快速适应新噪声。实验：在LibriSpeech干净语音与BBC音效库噪声混合的数据上进行评估。结果表明，在失配噪声条件下（特别是高频噪声），GDiffuSE在PESQ和SI-SDR指标上持续优于基线方法SGMSE（在WSJ0和TIMIT上训练）和CDiffuSE。例如，在5dB SNR下针对高频噪声，GDiffuSE的SI-SDR为11.25±3.21，而sgmseWSJ0为9.43±2.64，CDiffuSE为3.66±3.23。频谱图也显示其抑制噪声更有效。实际意义：提供了一种快速、低成本地将强大语音生成模型适应到新噪声环境的可能方案，降低了先进语音增强技术的部署门槛。主要局限性：核心假设——训练噪声样本与推理时噪声统计一致——在现实中可能不总是成立；实验对比基线相对有限；未充分探讨当噪声统计发生显著变化时模型的失效模式；训练噪声片段（20秒）的充分性有待更全面验证。 🏗️ 模型架构 GDiffuSE系统包含两个主要组件，在训练和推理阶段协同工作，如图1所示。 ...