Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction
📄 Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction #语音识别 #语音大模型 #迁移学习 #领域适应 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Sashi Novitasari(推断为论文主要执行者,但论文中未明确标注) 通讯作者:George Saon(推断为项目负责人或资深作者,基于其在作者列表中的位置及在Granite-Speech项目中的核心角色) 其他作者:Takashi Fukuda, Kurata Gakuto(推断与第一作者同属一个团队) 所属机构:论文中未明确标注作者所属机构。但根据论文中使用的核心模型“Granite-Speech”由IBM团队开发,以及作者姓名和常见的研究合作模式,高度推断所有作者均来自IBM研究院(IBM Research)。具体可能涉及IBM的语音与自然语言处理研究部门。 💡 毒舌点评 这篇论文的亮点在于它巧妙地绕开了传统语音上下文偏置对专业G2P(字素到音素)工具的依赖,用“常见词”当“语音拐杖”,让普通用户也能给AI“开小灶”,思路非常接地气且实用。槽点则是实验规模和深度有点“小家子气”,只在英语数据上验证了方法的有效性,对于多语言、超大规模词表的场景能否扛得住,以及“常见词”列表的构建和覆盖度问题,都缺乏更深入的探讨,感觉像是一个完成度很高的原型系统报告。 🔗 开源详情 代码:论文中提到了“GitHub Issue”的链接,但这是arXiv HTML版本用于报告问题的模板链接,并非论文代码仓库。论文正文未明确提供代码开源地址。 模型权重:论文使用了IBM开源的 Granite-Speech-3.3-8b 架构和 granite-3.3-8b-instruct 作为基座。但论文中提出的方法的微调后模型权重是否开源,未在文中说明。 数据集:实验使用了多个公开数据集:LibriSpeech, CommonVoice 17.0, AMI, VoxPopuli, SPGISpeech, Gigaspeech。Voicemail数据集可能需要申请。MIT 10K词列表是公开的。 预训练权重:基于公开的Granite-Speech预训练权重进行微调。 在线Demo:论文中未提及在线演示链接。 引用的开源项目: Granite-Speech: IBM的开源语音大模型。 SoundChoice G2P: 用于字素到音素转换的模型(来自SpeechBrain工具包)。 LoRA: 用于高效微调大语言模型的技术。 Q-Former: 源自BLIP-2视觉语言模型的架构。 总结:论文依赖于多个开源项目(Granite-Speech, LoRA等),但其核心贡献——基于常见词提示的上下文偏置方法及训练代码——未在论文中声明开源。 ...