LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data
📄 LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data #语音识别 #语音翻译 #半监督学习 #大语言模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 #语音翻译 | #半监督学习 #大语言模型 | #语音识别 #语音翻译 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Wen Ding(NVIDIA Corporation) 通讯作者:未说明 作者列表:Wen Ding(NVIDIA Corporation),Fan Qian(NVIDIA Corporation) 💡 毒舌点评 这篇论文巧妙地将一个在NLP领域成熟的工具(LLM)转化为解决语音SSL中“脏数据”问题的利器,思路实用且效果显著,特别是在AST任务上SOTA的结果很有说服力。然而,其验证的“语音大模型”高度集中于Whisper,缺乏对其他架构(如USM, MMS)的验证,让人好奇该框架是否具有更普适的迁移能力。 🔗 开源详情 代码:提供。论文明确提供了开源配方的GitHub仓库链接:github.com/nvidia-china-sae/mair-hub/tree/main/speech-llm/less_recipe。 模型权重:未提及开源作者自己训练的模型权重。但所使用的基础模型(Whisper Large-v3, Yi-Large, LLaMA-3-70B)均为公开可用的模型。 数据集: 有标签数据(AISHELL-1, Fisher, Callhome)是公开的标准数据集。 论文中使用的“真实世界”YouTube数据集(1590小时普通话, 868小时西班牙语)是自行收集的,论文未说明其是否公开或如何获取。 Demo:论文中未提及在线演示。 复现材料:提供了开源配方,包含训练流程、依赖工具(K2 Icefall)和实验配置的关键细节(如学习率, 模型, LLM选择, 过滤阈值),复现基础较好。 论文中引用的开源项目: K2 Icefall toolkit (https://github.com/k2-fsa/icefall) Silero VAD (https://github.com/snakers4/silero-vad) Whisper Large-v3 (Hugging Face) Yi-Large (通过NVIDIA NIM访问) LLaMA-3-70B (通过NVIDIA NIM访问) Qwen2.5-coder-32b-instruct (通过NVIDIA NIM访问) ESPnet (用于对比的基线结果) 📌 核心摘要 要解决的问题:当前最先进的语音基础模型(SFMs)在半监督学习中利用从真实世界(in-the-wild)收集的未标注音频数据时,面临一个核心挑战:这些数据声学环境复杂多样,模型生成的伪标签质量较低,导致训练效果不佳。 方法核心:提出了LESS框架。该框架在标准的无教师-学生(Noisy Student Training)SSL流程中,引入一个文本大语言模型(LLM)作为“校正器”,对SFMs(如Whisper)在未标注音频上生成的伪标签(ASR转录或AST翻译文本)进行修正。随后,通过一个基于WER(词错误率)变化的数据过滤策略,筛选出LLM修正后质量更高的伪标签,与原始有标签数据混合,用于迭代微调SFMs。 与已有方法相比新在哪里:传统SSL方法要么专注于训练策略优化,要么使用小型模型和经过筛选的无标签数据。LESS的创新在于:(a) 首次系统性地将LLM集成到面向真实世界、嘈杂数据的语音SSL流程中,作为独立的伪标签优化模块;(b) 提出了“WER Prompting”技巧,让LLM在生成修正文本时同时输出估计的WER,可辅助过滤;(c) 专门设计并验证了该框架在“真实世界”数据场景下的有效性,而不仅仅是使用现有干净数据集忽略其标签。 主要实验结果: 中文ASR:在WenetSpeech测试集上,相比仅使用AISHELL-1训练的监督基线,经过三轮LESS迭代训练后,WER从17.7%绝对下降至13.9%,降幅达3.8%。在领域内测试集AISHELL-1/2上,WER保持稳定(约3.0%/5.2%)。 西语-英语AST:在Callhome和Fisher测试集上,LESS方法达到了34.0和64.7的BLEU分数,显著优于监督基线(33.5, 64.2)和不加LESS的标准NST(33.2, 64.0)。 消融实验:验证了通用LLM(Yi-Large)比代码专精LLM(Qwen2.5-coder)更适合纠错;WER提示词(WER Prompting)和严格的过滤阈值(0.1)能带来性能提升。 实际意义:该框架为利用海量、易获取但质量低劣的网络语音数据训练更强健、适应性更广的语音大模型提供了一种有效的工程化路径,有助于降低对昂贵精标数据的依赖。 主要局限性:研究中使用的语音大模型(SFMs)主要局限于Whisper Large-v3,未验证该方法在其他主流架构(如USM, MMS)上的泛化能力。此外,对于AST任务,仅进行了一轮迭代实验,多轮迭代的潜力和收敛情况有待探索。真实世界数据的噪声和多样性控制标准未深入讨论。 🏗️ 模型架构 论文提出的是一个迭代优化的流水线框架(LESS),而非一个独立的新模型架构。其核心组件和数据流如下: ...