Speech Enhancement Based on Drifting Models

📄 Speech Enhancement Based on Drifting Models #语音增强 #流匹配 #自监督学习 #单步生成 #无监督训练 ✅ 7.5/10 | 前25% | #语音增强 | #流匹配 | #自监督学习 #单步生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(根据作者列表顺序,Liang Xu排首位,但论文未明确标注“第一作者”) 通讯作者:未说明(论文未明确标注“通讯作者”) 作者列表:Liang Xu(维多利亚大学惠灵顿分校)、Diego Caviedes-Nozal(GN Audio A/S)、Bastiaan Kleijn(维多利亚大学惠灵顿分校)、Longfei Felix Yan(维多利亚大学惠灵顿分校)、Rasmus Kongsgaard Olsson(GN Audio A/S) 💡 毒舌点评 亮点在于概念创新,将生成式建模重新表述为“漂移-平衡”问题,优雅地实现了无需迭代的一步增强,并证明了其在无配对数据训练上的潜力。短板是论文中部分实验细节(如无监督训练的完整设置)不够透明,且在PESQ等保真度指标上虽具竞争力,但并未全面超越顶尖的单步蒸馏方法,其“SOTA”主张需结合具体指标看待。 📌 核心摘要 问题:现有基于扩散模型的语音增强方法虽然效果好,但推理过程需要多步迭代(10-100步),导致计算延迟高,难以满足实时应用需求。 方法核心:提出DriftSE框架,将语音增强重构为一个分布平衡问题。其核心是学习一个“漂移场”,该场由指向干净语音分布的吸引力和远离当前生成分布的排斥力组成,驱动映射函数的输出分布直接演化至目标分布,从而实现单步推理。 新意:与基于轨迹(如扩散、流匹配)的迭代方法不同,DriftSE通过分布演化求解均衡,原生支持一步生成。论文设计了两种增强范式:直接映射(含噪语音到干净语音)和条件生成(从噪声先验生成)。漂移计算在预训练SSL模型的潜空间多层特征上进行,以捕捉多层级语音结构。 主要实验结果: 在VoiceBank-DEMAND基准测试上,直接映射变体(DistilHuBERT, σ=0)达到PESQ 3.15, SI-SDR 16.1 dB,优于30步的SGMSE+(PESQ 2.90)和单步MeanFlowSE(PESQ 2.81)。条件生成变体(DriftSE*)在无参考指标上表现优异,达到SCOREQ 4.33,DNSMOS 3.64。在DNS Challenge 2020真实录音测试中,DriftSE(DistilHuBERT)取得了领先的WV-MOS 2.65和SCOREQ 2.97。 关键数据对比表(VB-DMD测试集): ...

2026-04-28

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分 前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分 前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分 前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分 前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分 前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分 前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分 前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分 前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分 前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分 前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分 前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分 前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分 前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分 前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分 前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分 前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分 前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分 前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分 前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分 前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分 前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

2026-04-28