H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-based Multi-Talker ASR

📄 H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-based Multi-Talker ASR #语音识别 #多任务学习 #LoRA #语音分离 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #多任务学习 | #LoRA #语音分离 | arxiv 👥 作者与机构 第一作者:Yujie Guo(南开大学/NKU-HLT) 通讯作者:Yong Qin(南开大学/NKU-HLT) 作者列表:Yujie Guo(南开大学/NKU-HLT)、Jiaming Zhou(南开大学/NKU-HLT)、Yuhang Jia(南开大学/NKU-HLT)、Yang Chen(南开大学/NKU-HLT)、Yong Qin(南开大学/NKU-HLT) 💡 毒舌点评 论文靠显式重叠监督和整体门控给MoE路由强行灌输“场景认知”,消融实验干净利落,把自注意力全局编码和显式损失的必要性扒得很清楚。但性能提升相当温吞,尤其是重中之重的3-mix场景,OA-WER仅从GLAD的20.0%抠到19.8%,基本属于统计误差级别的进步,且低重叠区被SACTC反超,说明这套“显式建模”的优势极度依赖说话人高度纠缠的特定条件;只在讲卫生的LibriSpeechMix读书腔上跑分,放到真实鸡尾酒会里会不会露怯尚完全未知。 📌 核心摘要 针对多说话人语音识别中MoE路由普遍依赖帧独立投影、仅靠隐性ASR目标学习而导致时序短视和可解释性缺失的问题,本文提出H-SAGE。其核心是用Speaker-Aware Global Encoder(SA-Encoder)建模长程说话人活动状态,并配套Overlap-Aware Loss对帧级的重叠、单说话人、静音/填充三态施加显式交叉熵监督;在此之上设计了Holistic Gating Mechanism,将SA-Encoder跨层共享的全局上下文与当前层的局部特征拼合,学习动态融合权重以平衡全局与局部路由概率。在LibriSpeechMix基准上,H-SAGE在2-mix和3-mix的高重叠子集取得SOTA,并通过消融证实显式监督和整体门控各自均有实质性收益。该工作将MTASR的专家路由从“隐式+局部”打上了“显式+全局”的声学先验补丁,在高重叠场景下提升了鲁棒性。主要局限在于分离增益不够显著(3-mix客观指标近乎持平GLAD),且仅在人工合成、读书风格的LibriSpeechMix单基准上验证,对真实口语音素变化、噪声及跨语言泛化性未作评估。 ...

2026-07-03 · 更新于 2026-07-03 · 2 min · 374 words

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜(31 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分 前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分 前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分 前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分 前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分 前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分 前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分 前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分 前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分 前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分 前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分 前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分 前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分 前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分 前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分 前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分 前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分 前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分 前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分 前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分 前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分 前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分 前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分 前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分 后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分 后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分 后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分 后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分 后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分 后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分 后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分 后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

2026-07-03 · 更新于 2026-07-03 · 25 min · 5320 words