Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR
📄 Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR #语音识别 #检索增强 #端到端 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音识别 | #检索增强 | #端到端 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Zhichao Liang(香港中文大学(深圳)数据科学学院) 通讯作者:Satoshi Nakamura*(香港中文大学(深圳)数据科学学院与人工智能学院) 作者列表:Zhichao Liang(香港中文大学(深圳)数据科学学院)、Satoshi Nakamura(香港中文大学(深圳)数据科学学院与人工智能学院) 💡 毒舌点评 该工作巧妙地将语言后验信息“注入”kNN检索的查询空间,使检索过程本身具有语言意识,这是一个非常直观且有效的改进点。然而,实验仅局限于中英代码切换场景,且与更强或更新的基线(如基于大模型的零样本方法)对比不足,削弱了结论的普适性和说服力。 📌 核心摘要 解决的问题:针对代码切换自动语音识别中语言边界模糊和跨语言声学干扰的挑战,特别是现有门控检索增强CTC模型(如双单语数据存储)存在的边界决策不稳定和语言意识不足的问题。 方法核心:提出LIRA-CTC框架,通过将帧级语言后验概率与编码器特征拼接,形成“语言信息注入”的检索查询,使检索空间与语言身份对齐;并设计自适应软硬门控策略,在数据存储距离差大时硬选择,在距离差小时软插值。 与已有方法的创新:不同于先前仅使用编码器特征进行检索或在解码器端使用语言信息的方法,该工作将语言后验直接融入检索的“键/查询”构造中,并引入了平滑过渡的软硬混合门控机制。 主要实验结果:在ASCEND中文-英文数据集上的实验表明,LIRA-CTC相较于基线Conformer、kNN-CTC和门控kNN-CTC,在官方测试集(TEST)和混合训练集(SMIX)上均取得了更低的混合错误率(MER)。关键数据见下表: 方法 TEST MER (%) SMIX MER (%) RTF CTC 26.10 28.77 0.0139 kNN-CTC 25.49 27.24 0.0145 Gated kNN-CTC 24.97 26.33 0.0152 LIRA-CTC 23.60 24.98 0.0155 实际意义:为零样本代码切换ASR提供了一种有效且计算开销增加有限的新框架,通过增强检索过程的语言感知能力和决策稳定性,提升了模型对混合语言语音的识别鲁棒性。 主要局限性:实验仅验证于中英代码切换场景,其有效性是否能扩展至其他语言对或更复杂的多语言场景有待证明;与当前前沿的零样本ASR方法(如基于大型预训练模型的方法)对比不足。 🏗️ 模型架构 整体架构基于预训练的CTC ASR模型(Conformer编码器+Transformer解码器),核心扩展在于检索增强解码部分。 ...