H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-based Multi-Talker ASR
📄 H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-based Multi-Talker ASR #语音识别 #多任务学习 #LoRA #语音分离 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #多任务学习 | #LoRA #语音分离 | arxiv 👥 作者与机构 第一作者:Yujie Guo(南开大学/NKU-HLT) 通讯作者:Yong Qin(南开大学/NKU-HLT) 作者列表:Yujie Guo(南开大学/NKU-HLT)、Jiaming Zhou(南开大学/NKU-HLT)、Yuhang Jia(南开大学/NKU-HLT)、Yang Chen(南开大学/NKU-HLT)、Yong Qin(南开大学/NKU-HLT) 💡 毒舌点评 论文靠显式重叠监督和整体门控给MoE路由强行灌输“场景认知”,消融实验干净利落,把自注意力全局编码和显式损失的必要性扒得很清楚。但性能提升相当温吞,尤其是重中之重的3-mix场景,OA-WER仅从GLAD的20.0%抠到19.8%,基本属于统计误差级别的进步,且低重叠区被SACTC反超,说明这套“显式建模”的优势极度依赖说话人高度纠缠的特定条件;只在讲卫生的LibriSpeechMix读书腔上跑分,放到真实鸡尾酒会里会不会露怯尚完全未知。 📌 核心摘要 针对多说话人语音识别中MoE路由普遍依赖帧独立投影、仅靠隐性ASR目标学习而导致时序短视和可解释性缺失的问题,本文提出H-SAGE。其核心是用Speaker-Aware Global Encoder(SA-Encoder)建模长程说话人活动状态,并配套Overlap-Aware Loss对帧级的重叠、单说话人、静音/填充三态施加显式交叉熵监督;在此之上设计了Holistic Gating Mechanism,将SA-Encoder跨层共享的全局上下文与当前层的局部特征拼合,学习动态融合权重以平衡全局与局部路由概率。在LibriSpeechMix基准上,H-SAGE在2-mix和3-mix的高重叠子集取得SOTA,并通过消融证实显式监督和整体门控各自均有实质性收益。该工作将MTASR的专家路由从“隐式+局部”打上了“显式+全局”的声学先验补丁,在高重叠场景下提升了鲁棒性。主要局限在于分离增益不够显著(3-mix客观指标近乎持平GLAD),且仅在人工合成、读书风格的LibriSpeechMix单基准上验证,对真实口语音素变化、噪声及跨语言泛化性未作评估。 ...