Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation

📄 Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation #语音分离 #扩散模型 #U-Net #数据增强 #音频生成 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #U-Net #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yun-Ning (Amy) Hung (Moises, USA) 通讯作者:未说明 作者列表:Yun-Ning (Amy) Hung (Moises, USA), Richard Vogl (Moises, USA), Filip Korzeniowski (Moises, USA), Igor Pereira (Moises, USA) 💡 毒舌点评 亮点:论文巧妙地将针对图像生成优化的EDM框架“移植”到音频分离,并通过带分离和双路径RoFormer等音乐领域知识进行“魔改”,成功将扩散模型的推理步数压至个位数,在生成式方法中实现了SOTA性能。短板:虽然在自家构建的生成式对比阵营中鹤立鸡群,但一旦面对经过大规模数据洗礼的判别式“怪兽”(如BS-RoFormer),在客观指标上依然力有不逮,生成式范式在音乐分离上的“逆天改命”之路仍需努力。 🔗 开源详情 代码:论文中提及代码仓库链接为 https://github.com/NVlabs/edm/tree/main(此为EDM框架的开源实现,非本文专用代码)。同时提供了本文模型的具体实现链接:https://github.com/amymoises/diffvs.github.io(注:此链接指向项目主页,具体代码需查看)。因此,论文中提及了代码链接。 模型权重:论文提供了音频示例链接 https://amymoises.github.io/diffvs.github.io/,暗示可能提供了预训练模型或演示。根据上下文,提及了模型权重。 数据集:使用了公开数据集MUSDB18-HQ和MoisesDB。论文中提及了数据集及其获取方式(公开基准)。 Demo:提供了音频样本演示链接 https://amymoises.github.io/diffvs.github.io/,是。 复现材料:论文详细说明了训练超参数(学习率、优化器、步数、batch size等)、模型架构细节(通道数、层数、模块配置)、数据增强方法、STFT参数、推理参数(σ范围,ρ,步数)以及训练硬件(单卡H200,时长约1周)。复现信息较为充分。 论文中引用的开源项目:EDM框架 (https://github.com/NVlabs/edm)。 整体开源情况:论文提供了项目主页、模型代码实现链接(指向GitHub)以及演示音频,模型和数据均为公开可用。训练细节描述详尽,具备较高的可复现性。 📌 核心摘要 问题:当前基于生成式扩散模型的音乐源分离方法,在标准客观指标(如SDR)上通常落后于判别式方法,且推理步数多、模型庞大,限制了其实用性。 方法:本文提出Diff-VS,一个基于Elucidated Diffusion Model (EDM)框架的高效音频感知扩散U-Net模型,专门用于人声分离。模型输入为经过特殊归一化的复数频谱图,并采用带分离和双路径RoFormer块改进的U-Net架构。 创新:首次将EDM框架应用于人声分离,实现了少于10步的高效推理;提出针对音乐信号特性的架构改进(如用双路径RoFormer替换像素自注意力);实验证明生成式方法能达到与判别式方法竞争力的客观指标和更优的感知质量。 实验结果:在MUSDB18-HQ数据集上,仅需7步推理的Diff-VS达到了10.12 dB的cSDR,超越了所有已对比的生成式模型(最高为SGMSE的8.63 dB),并接近SCNet-L (10.86 dB) 等顶尖判别式模型。在基于MERT嵌入的感知质量评估中,Diff-VS (MSE=0.083) 优于SCNet-L (0.096) 和SGMSE (0.089)。 实际意义:该工作证明了经过精心设计的生成式模型,可以在保持分离质量(特别是感知质量)的同时,大幅提升推理效率,为生成式方法在音频分离领域的实际应用提供了可能。 主要局限性:在使用更多数据(MoisesDB)训练的最强判别式模型(如BS-RoFormer-12L)面前,客观性能仍有明显差距;模型目前仅针对人声分离,未验证其在多乐器分离任务上的能力;缺乏对生成多样性的讨论和评估。 🏗️ 模型架构 Diff-VS的整体架构基于EDM框架下的改进型DDPM++ U-Net。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 380 words

Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models

📄 Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models #语音情感识别 #扩散模型 #对比学习 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #扩散模型 | #对比学习 #跨模态 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kexin Gao (中国海洋大学计算机科学与技术学院) 通讯作者:Xinjie Wang (中国海洋大学计算机科学与技术学院, 邮箱:wangxinjie@ouc.edu.cn) 作者列表:Kexin Gao (中国海洋大学计算机科学与技术学院), Yuyu Zhu (中国海洋大学计算机科学与技术学院), Jian Liu (中国海洋大学计算机科学与技术学院), Xinjie Wang* (中国海洋大学计算机科学与技术学院), Xiaogang Jin (浙江大学CAD&CG国家重点实验室), Jie Nie (中国海洋大学计算机科学与技术学院) 💡 毒舌点评 亮点:在情感表征上,摒弃了传统的离散标签,转而使用连续的VA值和文本描述进行层次化对比学习,这一设计巧妙地缓解了细粒度情感标注数据稀缺的问题。短板:尽管号称“细粒度情感控制”,但实验主要基于离散情绪类别的MEAD/RAVDESS数据集,对情感粒度的提升主要体现在强度和类间区分上,对更微妙、混合情感的生成能力验证不足,跨数据集的泛化能力也仅在一个小型数据集上得到初步验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开数据集MEAD、RAVDESS和TA-MEAD。论文中未说明其提取的AU和FLAME数据是否公开。 Demo:未提及。 复现材料:论文提供了部分训练超参数(学习率、批大小、训练轮数、损失权重、GPU型号等),但未提供完整的训练脚本、配置文件或预训练检查点。 引用的开源项目/模型:HuBERT(用于特征提取)、CLIP(用于文本编码)、FLAME(面部模型)、SpeechEmotionAVLearning(用于提取VA值)。 📌 核心摘要 要解决的问题:现有音频驱动的3D说话头部生成技术虽然在唇形同步方面表现良好,但在生成生动、可控且情感细腻的面部动画方面存在瓶颈,具体表现为情感解耦粒度粗糙、生成稳定性差以及难以建模细微的情感差异。 方法核心:提出DiffEmoTalk框架,其核心是三个专门编码器:唇动编码器、韵律编码器和情感感知语音编码器(EASE),用于从语音中解耦不同粒度的特征。EASE通过层次化多级对比学习(HMLC),利用连续的效价-唤醒值(VA)和文本描述进行优化。解耦后的特征通过一个“情感引导的多特征AU预测器”融合,并以面部动作单元(AU)作为中间监督,最终输入一个基于Transformer的扩散模型解码器生成FLAME参数动画。 创新点:与已有方法相比,新在:(1) 提出EASE模块,通过对比学习从语音中提取更丰富、更具区分度的情感表征;(2) 引入AU作为中间监督和桥接模态的桥梁,改善了跨模态融合的稳定性与可解释性;(3) 将扩散模型与细粒度情感解耦相结合,实现了在情感准确性与生成多样性之间的更好平衡。 主要实验结果:在MEAD和RAVDESS数据集上,DiffEmoTalk在情感准确度(MEE)和情感强度误差(EIE)上取得了最佳成绩(例如,在MEAD上,MEE为0.00936,低于MEDTalk的0.01215)。唇音同步(MLE)略逊于MEDTalk(0.00695 vs 0.00657),但优于EmoTalk和DiffPoseTalk。在用户研究中,其在情感准确性和生动性评分上也领先。关键消融实验证明了三编码器解耦、AU监督和EASE模块的必要性。 实际意义:该工作推动了更具表现力和可控性的数字人生成技术,在虚拟助手、数字人交互、远程协作和内容创作等领域有应用潜力。 主要局限性:情感控制目前高度依赖语音内容,未能整合文本、视觉等上下文线索来处理“相同话语不同情感”的情况。此外,模型在跨数据集泛化能力上的验证较为有限。 🏗️ 模型架构 DiffEmoTalk的整体框架(见图1)是一个多阶段的生成系统,目标是将输入语音转换为3D面部动画(FLAME参数)。其架构可分为三个主要阶段:特征解耦与提取、AU预测与融合、以及扩散模型生成。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 317 words

Diffusion Timbre Transfer via Mutual Information Guided Inpainting

📄 Diffusion Timbre Transfer via Mutual Information Guided Inpainting #音乐生成 #音频生成 #扩散模型 #零样本 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ching Ho Lee(Queen Mary University of London) 通讯作者:未说明 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London) 💡 毒舌点评 亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 284 words

Direct Preference Optimization For Speech Autoregressive Diffusion Models

📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) 通讯作者:Shuai Wang(南京大学智能科学与技术学院) 作者列表: Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) Dongya Jia(字节跳动Seed) Xiaoqiang Wang(字节跳动Seed) Chenpeng Du(字节跳动Seed) Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院) Zhuo Chen(字节跳动Seed) Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院) 💡 毒舌点评 亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。 🔗 开源详情 代码:论文中未提及代码链接。补充材料页面(https://zjlww.github.io/ardm-dpo/)可能包含音频示例,但未说明是否提供代码。 模型权重:未提及公开模型权重。 数据集:未提及公开偏好数据集。使用了公开的LibriTTS和DidiSpeech-2作为基础数据,但筛选后的偏好对未公开。 Demo:未提供在线演示链接。补充材料页面可能包含音频样本,但不是交互式Demo。 复现材料:论文提供了详细的训练超参数(学习率、优化器、批次大小等)和硬件信息(32张A100),复现基础模型训练可能可行。但ARDM-DPO训练所必需的、经过精心筛选的偏好数据集未公开,是复现的主要障碍。 论文中引用的开源项目:DiTAR模型(基于ARTransformer)、Whisper-large-v3(用于WER)、Paraformer-zh(用于CER)、WavLM-TDCNN(用于说话人相似度计算)、Seed-TTS-Eval2(评估工具包)。 📌 核心摘要 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 347 words

DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings

📄 DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings #语音增强 #扩散模型 #音频大模型 #自回归模型 #预训练 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #音频大模型 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yihui Fu(德国布伦瑞克工业大学通信技术研究所) 通讯作者:未说明 作者列表:Yihui Fu(德国布伦瑞克工业大学通信技术研究所)、Tim Fingscheidt(德国布伦瑞克工业大学通信技术研究所) 💡 毒舌点评 这篇论文的亮点在于它巧妙地将离散token的保真度与连续嵌入的phonetic精度结合起来,并且通过“量化误差掩码初始化”这一小巧思,成功地将扩散过程的反向步骤压缩到一步,实现了性能与效率的双赢。不过,论文通篇没有提及代码和模型开源的具体计划,对于想要立刻复现或应用其技术的同行来说,这无疑是一个不小的障碍。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用的是公开的URGENT 2024挑战赛数据集,但未提供直接的下载链接或获取方式说明。 Demo:未提及。 复现材料:提供了非常详细的训练细节(见“详细分析”部分),包括数据处理、网络参数、损失函数、训练配置等,有利于复现。但未提供具体的配置文件、启动脚本或检查点。 论文中引用的开源项目:引用了以下开源项目作为依赖: Descript Audio Codec (DAC): https://github.com/descriptinc/descript-audio-codec WavLM: https://huggingface.co/docs/transformers/model_doc/wavlm URGENT 2024 Challenge 工具包: https://github.com/urgent-challenge/urgent2024_challenge MaskGIT: [13] Chang et al., CVPR 2022. 📌 核心摘要 问题:现有基于离散音频编解码器的扩散语音增强方法虽然保真度好,但推理时需要多次迭代,计算复杂度高;且在恢复正确音素(phoneme)方面表现不佳,导致其侵入式指标分数较低。 方法核心:本文提出DisContSE,一个混合判别/生成模型。它联合处理离散的音频编解码器token和连续嵌入,分别通过离散增强模块和连续增强模块进行优化,并引入语义增强模块提升音素准确性。其关键创新是提出“量化误差掩码初始化”策略,使得在推理时仅需一步扩散过程即可生成结果。 与已有方法相比新在哪里:首次实现了基于音频编解码器的单步扩散语音增强;提出了联合离散与连续表征的统一框架,并明确设计了三个功能互补的增强模块;通过量化误差指导初始化,优化了单步推理的质量。 主要实验结果:在URGENT 2024挑战赛数据集上进行评估,DisContSE在PESQ、POLQA、UTMOS等关键指标和主观MOS测试中均排名第一,总体排名(2.36,越低越好)显著优于所有对比的基线扩散模型。消融实验证明了每个模块及单步策略的有效性。关键结果对比如下: 方法 类型 PESQ POLQA UTMOS ESTOI 总体排名 SGMSE+ [1] G30 2.75 2.98 2.74 0.78 6.27 CRP [15] G1 3.10 3.01 3.04 0.81 3.36 StoRM [17] D+G50 2.94 3.02 2.95 0.79 4.82 Universe++ [18] D+G8 3.09 3.23 3.04 0.80 4.18 DisContSE (prop.) D+G1 3.14 3.25 3.13 0.80 2.36 实际意义:该工作为语音增强领域提供了一种高效且高质量的解决方案,单步推理特性使其更适合部署在实时或资源受限的应用场景中。 主要局限性:论文未明确开源代码和模型权重,限制了即时复现;尽管提出了单步扩散,但模型本身结构相对复杂,结合了多个预训练模型(DAC, WavLM)和独立的增强模块,总参数量较大。 🏗️ 模型架构 DisContSE是一个由三个主要模块和一个共享的离散扩散解码器构成的混合架构。 ...

2026-04-29 · 更新于 2026-06-19 · 3 min · 431 words

Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

📄 Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens #语音合成 #扩散模型 #自回归模型 #语音表示 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology) 通讯作者:未说明 作者列表:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology),He Huang(NVIDIA),Jean-Marie Lemercier(NVIDIA),Subham Sekhar Sahoo(NVIDIA;Cornell Tech),Zhehuai Chen(NVIDIA),Ante Jukić(NVIDIA) 💡 毒舌点评 亮点:论文将新兴的离散扩散模型系统性地应用于语音token重建,并提供了迄今最全面的实证分析,结论(如FSQ优于RVQ、Conf-TopK采样更佳)对后续相关工作有直接的工程指导价值。短板:论文主要贡献是“应用与分析”,而非提出基础理论或解决语音token化中的核心难题(如语义与声学信息的完美解耦),且未探讨其方法对下游语音大模型(如TTS、ASR)性能的影响,使其深度和影响力受限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了Granary英文子集,论文未说明如何公开获取。 Demo:提供了一个Demo页面链接:https://kuray107.github.io/DDMs_on_taste26_examples/demo,用于展示音频样本。 复现材料:论文在“实验设置”部分给出了详细的训练配置(GPU型号/数量、batch size、优化器、学习率策略、两阶段训练步数、模型参数量)、评估指标和采样器设置,为复现提供了充分的文字指导。 论文中引用的开源项目: 量化方案:Finite Scalar Quantization (FSQ) [26] 预训练模型:Whisper [21], NVIDIA NeMo [25], CosyVoice [17], HiFi-GAN vocoder [23] 评估工具:Torchaudio-Squim [30], WavLM [33], TitaNet [34], WV-MOS [31], UTMOS [32] DDM相关:D3PM [1], MDLM [2], ReMDM [4], Confidence-based Samplers [13, 14, 15] 📌 核心摘要 要解决什么问题:现有的TASTE语音token化框架依赖自回归(AR)解码器来重建语音,这导致推理速度慢,且重建质量可能非最优。 方法核心是什么:提出用离散扩散模型(DDM)替代TASTE中的AR解码器。模型在推理时,通过迭代去噪(从全掩码到逐步揭示)来并行预测S3 token序列,再由vocoder生成波形。 与已有方法相比新在哪里:首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比,DDM解码具有并行性,且质量更高。同时,论文系统比较了向量量化方案(RVQ vs. FSQ),发现FSQ能显著提升性能。 主要实验结果如何:在LibriSpeech数据集上,DDM解码器相比AR基线实现了3.3倍的推理速度提升(测试集1.65秒 vs. 5.48秒)。使用RVQ量化时,DDM的WER比AR降低35%(测试集:5.10% vs. 7.60%),UT-MOS提升0.45(4.27 vs. 3.82)。使用FSQ量化后,性能进一步提升,AR模型的WER相对降低35%,UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能,甚至单步推理也基本可用。关键实验结果对比如下表: 模型 量化方式 测试集 WER (%) ↓ UT-MOS ↑ AR基线 4L-RVQ test-clean 7.60 3.82 本文DDM 4L-RVQ test-clean 5.10 4.27 本文DDM 4L-FSQ test-clean 4.00 4.30 本文DDM 10步 test-clean 3.70 4.28 本文DDM 单步 test-clean 5.14 3.81 实际意义是什么:为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案,展示了离散扩散模型在条件生成任务中的潜力,并提供了工程实践上的具体指导(如采样器选择、步数设置)。 主要局限性是什么:模型性能严重依赖一个外部长度预测器来估计S3 token序列长度;论文未验证该改进的语音表示对下游语音大模型(如端到端TTS、ASR)的具体增益;其优势建立在强条件(文本+TASTE embedding)上,对于无条件或弱条件生成任务的普适性未探讨。 🏗️ 模型架构 本文模型架构建立在TASTE框架之上,包含两个主要部分:TASTE Tokenizer和解码器(AR或DDM)。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 392 words

Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis

📄 Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis #音频生成 #扩散模型 #状态空间模型 #数据增强 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #状态空间模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学 网络安全学院) 通讯作者:Hao Wang(西安电子科技大学 网络安全学院) 作者列表:Chenyang Xu(西安电子科技大学 网络安全学院)、Siming Li(西安电子科技大学 电信工程学院)、Wensai Xuan(西安电子科技大学 机电工程学院)、Hao Wang(西安电子科技大学 网络安全学院) 💡 毒舌点评 亮点:论文巧妙地将“内容”(生理状态)与“风格”(信号波形)解耦,其潜在空间t-SNE可视化(图4)首次提供了学习到的生理状态分离的直观证据,这是一个令人信服的贡献。短板:方法的有效性高度依赖于配对、同步且状态标注清晰的高质量数据(如Ephnogram),在真实世界更嘈杂、异构的临床数据中的泛化能力存疑,而论文未对此进行任何讨论或验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及公开权重。 数据集:论文使用了公开的Ephnogram数据集,但未提供获取链接或具体说明。 Demo:未提及。 复现材料:论文提供了较为详细的训练超参数(学习率、批大小、优化器、轮数)、模型结构(维度、层数)、损失函数公式及β值选择过程,这有助于复现。但未提供配置文件、训练脚本或预训练检查点。 论文中引用的开源项目:未在文中明确列出依赖的开源工具。架构中引用了Mamba[9]、AdaLN[21]等技术,但未指明是否使用了其官方开源实现。 📌 核心摘要 要解决的问题:心电图(ECG)与心音图(PCG)的跨模态合成对于综合心血管评估至关重要,但面临长程依赖建模和保持临床保真度的挑战。 方法核心:提出Mamba-Diff-VAE两阶段框架。第一阶段,共享的Mamba-VAE编码器将输入信号编码到一个捕获核心生理内容的结构化共享潜在空间。第二阶段,条件Mamba扩散解码器在潜在代码和元数据(如生理状态)的引导下,生成高保真的目标波形。 与已有方法相比新在哪里:不同于直接端到端的条件扩散模型,该工作明确将“内容表示”与“波形生成”解耦。使用Mamba替代Transformer处理长序列,具有线性复杂度优势。并且首次实证了学习到的潜在空间能有意义地区分生理状态(如静息与运动后)。 主要实验结果:在Ephnogram数据集上,该方法在ECG-to-PCG和PCG-to-ECG双向合成任务上均取得SOTA。与最强基线SSSM-Diff相比,在ECG-to-PCG任务上MSE降低40%(0.149 vs 0.089),相关性提高13%(0.745 vs 0.847);在PCG-to-ECG任务上MSE降低35%(0.173 vs 0.112)。消融研究(表2)证实了VAE组件和共享编码器的关键作用。 实际意义:该框架可用于生成高质量的合成心脏信号进行数据增强,提升下游诊断模型性能;其结构化潜在空间为心脏生理状态建模和潜在生物标志物发现提供了新途径。 主要局限性:研究仅基于一个公开数据集(Ephnogram)和健康/运动状态,未在病理数据集上验证泛化性;潜在空间分析主要停留在t-SNE可视化层面;推理过程未针对临床实时性进行优化。 🏗️ 模型架构 论文提出的Mamba-Diff-VAE是一个两阶段生成框架,旨在实现ECG和PCG信号的双向合成。其整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 313 words

DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

📄 DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration #语音增强 #扩散模型 #对比学习 #领域适应 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #对比学习 #领域适应 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Ziqi Liang(蚂蚁集团,杭州) 通讯作者:Jian Wang(蚂蚁集团,杭州,bobblair.wj@antgroup.com) 作者列表:Ziqi Liang(蚂蚁集团),Zhijun Jia(蚂蚁集团),Chang Liu(中国科学技术大学,合肥),Minghui Yang(蚂蚁集团),Zhihong Lu(蚂蚁集团),Jian Wang(蚂蚁集团)。 注:作者贡献标注为† Equal Contribution,故Ziqi Liang与Zhijun Jia贡献相当。 💡 毒舌点评 亮点:论文直击现有语音修复模型跨说话人风格泛化能力差的痛点,并提出了一个新颖的假设——降质信息与说话人风格解耦,并据此设计了引导扩散模型的先验模块,思路清晰且具有启发性。短板:支撑“降质信息包含在说话人风格中”这一核心假设的实验(图3)略显间接,分类器收敛快慢并不能直接等同于“说话人风格”特征包含了全部且纯粹的“降质”信息,论证链不够坚实。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:使用了公开数据集LibriTTS, VCTK, AISHELL-3, JSUT,但未提供本文特有的模拟退化脚本或处理流程。 Demo:提供了演示网站:https://itspsp.github.io/DisSR。 复现材料:论文中未提供详细的训练配置、超参数设置或预训练检查点。 论文中引用的开源项目:提到了使用VoiceFixer [8]和SelfRemaster [4]的开源流水线来创建训练数据。 总结:论文中未提及完整的开源计划。 📌 核心摘要 解决的问题:现有语音修复方法多为针对单一失真的特定模型,泛化能力差,尤其是面对训练时未见过的说话人风格(跨域)时性能下降明显。 方法核心:提出DisSR模型,核心思想是将退化语音解纠缠为内容、说话人风格和降质表示。其中,降质表示被设计为说话人无关的先验信息,并用于条件引导一个基于扩散模型的恢复网络。同时,引入跨域对齐训练来最小化不同说话人分布间的差距。 创新点:1) 提出并实验验证了降质信息主要存在于说话人风格表示中的假设;2) 利用说话人无关的降质先验引导扩散模型进行通用语音修复;3) 设计了针对降质编码器的跨域对齐训练策略以提升模型泛化能力。 主要实验结果:在跨语言(英→中/日)跨说话人测试集上,DisSR在DNSMOS、PESQ-wb、MCD三项指标上均优于VoiceFixer、SelfRemaster和SGMSE+M基线模型(例如在LibriTTS→VCTK英文测试集上,PESQ-wb为3.02,相比最优基线SGMSE+M的2.74有显著提升)。在单任务修复(如带宽扩展、去噪)中,DisSR也展现出竞争力,总体感知质量(COVL)占优。消融实验表明,所提出的各组件(多层级降质先验、降质表示学习、跨域对齐损失)均对性能有贡献。 实际意义:为构建能处理多种失真且对新说话人鲁棒的通用语音修复系统提供了一种新思路,具有较强的实用价值。 主要局限性:核心假设的直接验证稍显薄弱;实验中假设“每条语音内降质相同,语音间变化”,这与真实世界复杂场景可能存在差距;未公开代码与模型,限制了可复现性。 🏗️ 模型架构 DisSR的整体架构如图2所示,主要分为两个协同工作的模块:说话人无关的降质解纠缠模块和跨域语音恢复模块。 ...

2026-04-29 · 更新于 2026-06-19 · 3 min · 431 words

DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers

📄 DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers #语音增强 #扩散模型 #Transformer #高保真音频 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #Transformer #高保真音频 学术质量 8.5/7 | 选题价值 8.0/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Heitor R. Guimarães (INRS-EMT, Université du Québec, Montréal, Canada) 通讯作者:未明确说明(根据作者顺序和单位,通常最后一位或带有†标记的作者可能是通讯作者,但论文中未明确标注) 作者列表: Heitor R. Guimarães(INRS-EMT, Université du Québec, Montréal, Canada;其工作在Adobe Research实习期间完成) Jiaqi Su(Adobe Research, San Francisco, California, United States) Rithesh Kumar(Adobe Research, San Francisco, California, United States) Tiago H. Falk(INRS-EMT, Université du Québec, Montréal, Canada) Zeyu Jin(Adobe Research, San Francisco, California, United States) 💡 毒舌点评 亮点:该工作首次在主观评测中将语音增强的输出质量提升至与真实录音棚录音(DAPS数据集)“无法区分”的水平(MOS 4.34 vs. 4.30),这是生成式语音增强领域一个重要的里程碑。 短板:模型(335M参数)相比多数基线更庞大,且依赖32步的扩散采样,实时性可能受限,其“高保真”优势在资源受限场景下的实用性有待考量;此外,尽管使用了离散编解码器进行后处理,但核心的连续潜在空间扩散仍面临VAE重建瓶颈(如VBD数据集上VAE重建分数低于原生48kHz音频)。 ...

2026-04-29 · 更新于 2026-06-19 · 3 min · 513 words

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

📄 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment #歌唱语音合成 #扩散模型 #数据增强 #隐式对齐 ✅ 7.0/10 | 前25% | #歌唱语音合成 | #扩散模型 | #数据增强 #隐式对齐 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Zongcai Du(咪咕音乐,中国移动通信集团公司) 通讯作者:未说明 作者列表:Zongcai Du(咪咕音乐,中国移动通信集团公司)、Guilin Deng(咪咕音乐,中国移动通信集团公司)、Xiaofeng Guo(咪咕音乐,中国移动通信集团公司)、Xin Gao(咪咕音乐,中国移动通信集团公司)、Linke Li(咪咕音乐,中国移动通信集团公司)、Kaichang Cheng(咪咕音乐,中国移动通信集团公司)、Fubo Han(咪咕音乐,中国移动通信集团公司)、Siyu Yang(咪咕音乐,中国移动通信集团公司)、Peng Liu(咪咕音乐,中国移动通信集团公司)、Pan Zhong(咪咕音乐,中国移动通信集团公司)、Qiang Fu(咪咕音乐,中国移动通信集团公司) 💡 毒舌点评 亮点: 论文提出了一套精巧的“PseudoSinger”数据构建流程,用“固定旋律+LLM生成歌词”的方式规模化生产高质量训练数据,从根源上缓解了SVS领域的数据饥渴问题。短板: 作为核心模型的DiTSinger,其架构本质是DiT在音频领域的直给式应用,隐式对齐机制是主要的架构创新,但整体模型设计的“性感”程度和理论深度稍显不足,更像是一项扎实的工程优化而非范式突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中构建了大规模数据集,但未提及是否公开或如何获取。 Demo:提供在线演示链接:https://nju-jet.github.io/DiTSinger/。 复现材料:论文中给出了主要的训练设置(GPU型号、数量、优化器、学习率、batch size、训练步数、数据比例等),但模型具体配置(如各变体的确切层数、宽度表)和部分训练细节(如学习率调度、精确的推理步数)未完全公开。 论文中引用的开源项目:DiffSinger、StyleSinger、TCSinger、M4Singer、HiFi-GAN、DPM-Solver。 📌 核心摘要 这篇论文旨在解决歌唱语音合成(SVS)领域面临的训练数据稀缺和对齐标签依赖两大挑战。 论文方法的核心包含两部分:1)提出一个两阶段的数据构建管道,通过固定旋律并利用大语言模型(LLM)生成多样歌词,先训练“PseudoSinger”模型,再用其合成大规模(500小时)数据,显著扩充了训练语料。2)设计了DiTSinger模型,一个基于扩散Transformer(DiT)的潜在扩散模型,并引入了一个隐式对齐机制,通过限制音素注意力范围来消除对显式音素时长标注的依赖。 与已有方法相比,新在:a) 首次在SVS领域系统性地构建了用于模型训练的大规模合成数据管道;b) 将可扩展的DiT架构引入SVS,并验证了模型和数据的规模效应;c) 提出了一种不依赖显式时长标签的隐式对齐方法,提升了鲁棒性。 主要实验结果显示,随着模型规模(从Small到Large)和训练数据量(从30h到530h)的增加,合成质量(以MCD衡量)持续提升(见图3)。最终的DiTSinger L2模型在MOS(4.02)上超过了DiffSinger(3.80)、StyleSinger(3.62)和TCSinger(3.89),同时在F0RMSE(11.18 Hz)等客观指标上也取得了最优结果(见表2)。 该工作的实际意义在于提供了一条可扩展的、减少人工标注依赖的高质量歌唱数据合成与模型训练路径。其主要局限性在于:研究仅限于中文数据集,且模型忽略了如演唱技巧等更复杂的风格因素。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 334 words