Exploring SSL Discrete Tokens for Multilingual Automatic Speech Recognition
📄 Exploring SSL Discrete Tokens for Multilingual Automatic Speech Recognition #语音识别 #自监督学习 #多语言 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #多语言 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mingyu Cui(香港中文大学;腾讯实习生) 通讯作者:未明确标注(根据常见习惯,推测为Xunying Liu或论文中列出的通讯作者标识,但本文未明确标注“Corresponding Author”) 作者列表:Mingyu Cui(香港中文大学,腾讯实习生)、Mengzhe Geng(加拿大国家研究委员会)、Yiwen Shao(腾讯)、Jiawen Kang(香港中文大学)、Lingwei Meng(香港中文大学)、Dingdong Wang(香港中文大学)、Chenxing Li(腾讯)、Meng Yu(腾讯)、Xunying Liu(香港中文大学) 💡 毒舌点评 亮点在于,论文用令人信服的实验证明了离散token在训练效率上的碾压优势(加速6.67倍且损失有限性能),并将研究从英语拓展到了7种非英语语言,填补了领域空白。但短板在于,其核心“创新”——用离散token做ASR——在语音社区已非新鲜事,且与最新基线(如Whisper)的对比略显保守,多语言潜力部分的消融实验(表2)也未能给出更优的配置方案,使得贡献停留在“有效验证”而非“范式突破”。 📌 核心摘要 要解决什么问题:现有研究将自监督学习(SSL)离散token应用于自动语音识别(ASR)时,主要局限于英语任务,且忽略了跨语句上下文信息的建模。本文旨在系统性地探索离散token在多语言ASR中的有效性,并利用其建模跨语句语音上下文。 方法核心:提出使用三种SSL/编解码模型(XLSR-53, WavLM-Large, EnCodec)生成离散token,替代传统FBank特征,输入到Zipformer-Transducer (Z-T) 端到端ASR系统中。进一步,在Z-T编码器中通过拼接或池化投影的方式,融入前序、当前及未来语句的编码器嵌入作为上下文特征。 与已有方法相比新在哪里:据作者所知,这是首次系统研究将离散token用于多语言且包含跨语句上下文建模的ASR任务。对比了SSL离散token、SSL连续特征和传统FBank特征,并分析了不同token生成源、上下文融合方式及多语言训练策略的影响。 主要实验结果:在Multilingual Librispeech (MLS) 语料库的7种语言上,基于XLSR-53的离散token Z-T系统平均WER相比FBank基线在开发集和测试集上分别降低0.45%和1.86%绝对值。离散token系统比连续SSL特征系统训练时间减少超过80%,采用上下文池化投影的离散token系统能以6.67倍的平均加速比,保留连续特征上下文系统70% 的WER改进。关键数据见下表: ...