Synthetic Data Domain Adaptation for ASR via LLM-Based Text and Phonetic Respelling Augmentation
📄 Synthetic Data Domain Adaptation for ASR via LLM-Based Text and Phonetic Respelling Augmentation #语音识别 #领域适应 #数据增强 #大语言模型 #少样本 🔥 8.0/10 | 前25% | #语音识别 | #领域适应 | #数据增强 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Natsuo Yamashita(Hitachi, Ltd.) 通讯作者:未说明 作者列表:Natsuo Yamashita(Hitachi, Ltd.), Koichi Nagatsuka(Hitachi, Ltd.), Hiroaki Kokubo(Hitachi, Ltd.), Kota Dohi(Hitachi, Ltd.), Tuan Vu Ho(Hitachi, Ltd.) 💡 毒舌点评 亮点: 该框架设计得非常系统和实用,特别是“先海量生成再精细过滤”的文本增强思路,以及巧妙地将发音变异性建模从声学后处理提前到文本输入阶段(PRA),直击合成数据训练的痛点。 短板: 论文所有实验(包括PRA的验证)均基于合成生成的训练数据和相对干净的测试集,缺乏在真实世界复杂声学环境(如强噪声、混响)下的验证,其宣称的“提升现实世界鲁棒性”尚需更严苛条件的检验。 📌 核心摘要 这篇论文旨在解决端到端ASR模型在领域特定数据上性能下降的问题,因为收集目标领域的文本和语音资源成本高昂。论文提出一个完全基于合成数据的领域自适应框架,核心包括两个创新组件:(1)一个基于大语言模型(LLM)的多阶段文本增强管道,通过多语言提示、多LLM生成和基于三重目标(词汇类型-标记比TTR、困惑度、领域术语覆盖)的过滤策略,生成兼具领域相关性和多样性的文本;(2)一种新颖的语音拼写增强(PRA)方法,使用LLM生成反映真实发音变异(如同化、省略、替换)的正字法伪拼写,并将其作为TTS输入,从而在文本层面注入自然的发音多样性。与传统在声学特征上操作的SpecAugment不同,PRA能生成更接近真实世界发音变异性的合成语音。实验在ATCOSIM、ATCO2(空管)、Court(法庭)和MedSyn(医疗)四个领域数据集上进行。主要结果显示,仅用其提出的文本增强管道(P1-1)微调Whisper-large-v3-turbo,相比基线DAS(B1)在所有数据集上均显著降低了词错误率(WER)、领域词错误率(B-WER)和非领域词错误率(U-WER)。例如在Court数据集上,WER从20.0降至17.8,B-WER从72.8大幅降至36.8。在此基础上结合PRA(P2),能进一步获得最佳或相当的性能,如在ATCO2上将WER从47.1降至41.1。该工作的实际意义在于提供了一套可扩展、低成本的ASR领域自适应方案,无需真实领域数据即可提升模型在特定垂直领域的性能。主要局限性是其评估主要依赖于合成测试数据(MedSyn)或相对干净的真实数据(ATC、Court),缺乏对复杂真实声学环境的广泛测试。 ...