Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation
📄 Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation #语音识别 #知识蒸馏 #多语言 #低资源 #伪标签 ✅ 6.2/10 | 前50% | #语音识别 | #知识蒸馏 | #多语言 #低资源 | arxiv 学术质量 4.7/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Sewade Ogun 通讯作者:未明确说明(论文仅提供第一作者邮箱) 作者列表:Sewade Ogun 💡 毒舌点评 这篇论文是一项扎实的工程集成工作,为尼日利亚低资源语言构建了一套完整的多语言ASR训练流水线,并开源了模型。其最大价值在于填补了该领域缺乏专用开源基础模型的空白,并通过详尽的工程优化(如伪标签生成流水线、皮钦语文本归一化)取得了优于现有基线的性能。然而,核心方法(知识蒸馏+伪标签迭代)是已有技术的直接应用,缺乏架构或算法层面的创新。对于顶会而言,其贡献更偏向于系统集成与数据处理,而非方法论上的突破。 📌 核心摘要 问题:现有支持尼日利亚语言(约鲁巴语、豪萨语、伊博语、尼日利亚皮钦语、尼日利亚英语)的多语言ASR系统性能落后于高资源语言,主要挑战包括数据稀缺、不规则正字法、声调变音符号、语码转换及本地命名实体。 方法核心:提出一个两阶段多语言ASR框架。第一阶段,利用多个现有的单语教师模型,通过带N-gram语言模型融合的CTC解码生成伪标签,结合少量人工标注数据,通过知识蒸馏训练一个统一的多语言学生模型(SBPN)。第二阶段,使用训练好的学生模型对未标注数据生成更优伪标签,经置信度过滤后进行迭代自训练。 与已有方法相比的新颖性:论文未提出新的模型架构或训练算法。其新颖性在于系统性地集成并优化了现有技术(知识蒸馏、大规模伪标签生成、针对特定语言的文本归一化、轻量化模型设计),专门解决尼日利亚语言ASR的独特挑战,是一个针对特定语言群组的工程化解决方案。 主要实验结果: SBPN-Large在Fleurs测试集上相对于单语教师模型实现了平均29%的相对WER降低。 SBPN-Base(120M参数)在Common Voice测试集上平均WER为25.53%,显著优于同量级基线AfriHuBERT(64.27%)和mHuBERT-147(69.53%)。 SBPN-Large(600M参数)在Fleurs测试集上平均WER为32.72%,优于参数量更大的MMS-1B(41.23%)和Whisper Large(116.46%)。 模型对语速变化表现出更强的鲁棒性(图3)。 模型在语言识别任务上也表现出色(表6)。 实际意义:提供了首个专门为尼日利亚主要语言构建的开源多语言基础ASR模型(SBPN),降低了该领域研究和应用的门槛,有助于数字鸿沟的弥合和语言保护。 主要局限性:对于含声调变音符号的语言(如约鲁巴语),模型在正确预测变音符号方面仍有较大提升空间(图4);论文坦承生成式纠错(GEC)方法引入了幻觉;主要创新在于系统集成而非方法论突破;未充分测试模型处理语码转换的能力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重: SBPN-Base checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_base SBPN-Large checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_large 单语教师模型 (Hausa): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-hausa_579_993h_yourtts 单语教师模型 (Igbo): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-igbo_naijavoices_500h 单语教师模型 (Yorùbá): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_500h 单语教师模型 (Nigerian Pidgin): https://huggingface.co/asr-nigerian-pidgin/pidgin-wav2vec2-xlsr53 SBPN-Base 预训练权重:https://huggingface.co/nvidia/parakeet-tdt_ctc-110m 数据集: Common Voice (https://commonvoice.mozilla.org/) Naijavoice dataset (论文中未提供链接,仅提及数据集名和出处) Fleurs (https://huggingface.co/datasets/google/fleurs) SLR86 (https://www.openslr.org/86/) BibleTTS (论文中未提供链接,仅提及数据集名和出处) Igbo-asr (https://www.kaggle.com/code/jameskaile/igbo-asr/input) Nigerian pidgin dataset (论文中未提供链接,仅提及数据集名和出处) Afrispeech-200 (论文中未提供链接,仅提及数据集名和出处) Gigaspeech (https://github.com/Speechcolab/gigaspeech) 未标注数据集:约10000小时,来源于尼日利亚广播、在线音频平台和免费播客,论文中未提供获取链接。 Demo:论文中未提及。 复现材料: 模型超参数详情见论文附录 C。 用于尼日利亚皮钦英语文本规范化的同音词列表见论文附录 A 和 B。 训练细节:使用 NeMo 语音工具包,采用 AdamW 优化器,进行 SpecAugment、噪声添加、时间拉伸等数据增强。 论文中引用的开源项目: NeMo (https://github.com/NVIDIA/NeMo) KenLM (https://github.com/kpu/kenlm) MossFormer2 (论文中未提供链接,仅提及论文) Pyannote speaker diarization toolkit (https://github.com/pyannote/pyannote-audio) Silero VAD (https://github.com/snakers4/silero-vad) VoxLingua107-ECAPA (https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa) AfroLID (论文中未提供链接,仅提及论文) Flashlight decoder (https://github.com/flashlight/flashlight) pyctcdecode (https://github.com/kensho-technologies/pyctcdecode) PyTSMod (https://github.com/KAIST-MACLab/PyTSMod) MUSAN dataset (论文中未提供链接,仅提及论文) Text processing tool (论文中未提供链接,仅提及论文) 🏗️ 方法概述和架构 本文的SBPN框架是一个端到端的多语言ASR系统构建流程,其核心是通过知识蒸馏将多个单语教师模型的能力融合到一个统一的多语言学生模型中,并利用伪标签进行迭代自改进。 ...