单步生成 | 语音/音乐/音频论文速递

📄 Speech Enhancement Based on Drifting Models #语音增强 #流匹配 #自监督学习 #单步生成 #无监督训练 ✅ 7.5/10 | 前25% | #语音增强 | #流匹配 | #自监督学习 #单步生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（根据作者列表顺序，Liang Xu排首位，但论文未明确标注“第一作者”）通讯作者：未说明（论文未明确标注“通讯作者”）作者列表：Liang Xu（维多利亚大学惠灵顿分校）、Diego Caviedes-Nozal（GN Audio A/S）、Bastiaan Kleijn（维多利亚大学惠灵顿分校）、Longfei Felix Yan（维多利亚大学惠灵顿分校）、Rasmus Kongsgaard Olsson（GN Audio A/S） 💡 毒舌点评亮点在于概念创新，将生成式建模重新表述为“漂移-平衡”问题，优雅地实现了无需迭代的一步增强，并证明了其在无配对数据训练上的潜力。短板是论文中部分实验细节（如无监督训练的完整设置）不够透明，且在PESQ等保真度指标上虽具竞争力，但并未全面超越顶尖的单步蒸馏方法，其“SOTA”主张需结合具体指标看待。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开数据集VoiceBank和DEMAND，并提及了DNS Challenge 2020测试集，但未提供论文自身生成的增强样本集。 Demo：未提及在线演示。复现材料：论文提供了较详细的实验设置（网络架构、SSL编码器及层数、训练超参数、损失函数描述），但未提供完整的配置文件或预训练检查点。论文中引用的开源项目：引用了NCSN++V2架构（来自SGMSE+）、DistilHuBERT等预训练模型。 📌 核心摘要问题：现有基于扩散模型的语音增强方法虽然效果好，但推理过程需要多步迭代（10-100步），导致计算延迟高，难以满足实时应用需求。方法核心：提出DriftSE框架，将语音增强重构为一个分布平衡问题。其核心是学习一个“漂移场”，该场由指向干净语音分布的吸引力和远离当前生成分布的排斥力组成，驱动映射函数的输出分布直接演化至目标分布，从而实现单步推理。 ...

语音/音乐/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分分档主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...