BBPE16: UTF-16-Based Byte-Level Byte-Pair Encoding for Improved Multilingual Speech Recognition

📄 BBPE16: UTF-16-Based Byte-Level Byte-Pair Encoding for Improved Multilingual Speech Recognition #语音识别 #词元化 #多语言 #工业应用 ✅ 7.0/10 | 前50% | #语音识别 | #词元化 | #多语言 #工业应用 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Hyunsik Kim(三星研究院) (注:论文中说明与Haeri Kim贡献相等,但列表顺序前者在先) 通讯作者:未说明 作者列表:Hyunsik Kim(三星研究院)、Haeri Kim(三星研究院)、Munhak Lee(三星研究院)、Kyungmin Lee(三星研究院) 💡 毒舌点评 这篇论文用一个“老编码翻新”的巧思,精准戳中了UTF-8在多语言ASR中对CJK语言“不友好”的痛点,带来的token效率提升是实打实的。但其创新天花板也肉眼可见,更像是一次工程优化而非学术突破,而且“仅此一篇”的封闭性也让其价值打了折扣。 📌 核心摘要 问题:当前主流的基于UTF-8的字节级BPE(BBPE)分词器在处理中文、日文、韩文(CJK)等非拉丁文字时,会因为变长编码(每个字符1-4字节)导致生成的token序列过长,增加了计算负载和内存使用,不利于高效的多语言语音识别(ASR)。 方法核心:提出BBPE16,一种基于UTF-16编码的BBPE分词器。UTF-16对基本多语言平面(BMP)内的大多数字符(包括大部分现代文字)使用统一的2字节编码,从而在分词前就减少了文本表示的长度。 创新点:与UTF-8 BBPE相比,BBPE16保持了语言无关性,但通过更均匀的2字节编码,显著提升了跨语言的token共享能力(例如在英、韩、中文三语场景中产生了42个共有token,而UTF-8 BBPE为0),并压缩了非拉丁文文本的token数量。 主要实验结果:在三语及持续学习场景中,BBPE16与UTF-8 BBPE在识别准确率(WER/CER)上相当或略优。核心效率指标上,对于中文数据(Common Voice Chinese),BBPE16使平均每条语音的token数减少了10.4%,解码迭代次数减少了10.3%。具体数据见下表: 场景 数据集 指标 BBPE BBPE16 BBPE16 vs BBPE 三语Token效率 Chinese (AISHELL-1) 平均Token数/条 19.5 18.6 -4.6% 持续学习Token效率 Chinese (CVC) 平均Token数/条 28.9 25.9 -10.4% 持续学习推理效率 Chinese (CVC) 平均解码迭代次数 27.3 24.5 -10.3% 实际意义:BBPE16提供了一种即插即用的改进,可直接替换现有BBPE流程,能加速多语言ASR模型(尤其是包含CJK语言的模型)的微调和推理过程,降低内存占用。 ...

2026-04-29