Advancing Speech Understanding in Speech-Aware Language Models with GRPO

📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO #语音大模型 #强化学习 #语音问答 #语音翻译 #大语言模型 ✅ 7.0/10 | 前25% | #语音问答 | #强化学习 | #语音大模型 #语音翻译 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Avishai Elmakies(IBM Research,*注:论文标注工作在实习期间完成) 通讯作者:未说明 作者列表:Avishai Elmakies(IBM Research)、Hagai Aronowitz(IBM Research)、Nimrod Shabtay(IBM Research)、Eli Schwartz(IBM Research)、Ron Hoory(IBM Research)、Avihu Dekel(IBM Research) 💡 毒舌点评 论文成功地将GRPO和可验证奖励(BLEU)应用于语音大模型的开放生成任务,并展示了其优于SFT的性能,方法简洁有效且结果扎实。然而,其核心贡献更多是应用层面的迁移与验证,而非算法本身的重大革新,且完全未开源代码与模型,对社区的可复用性打了折扣。 📌 核心摘要 问题:现有语音感知大模型在多项选择题型的强化学习训练中受限于二元奖励,难以评估和提升其开放式的文本生成能力。标准SFT在生成任务上仍有提升空间。 方法核心:提出将Group Relative Policy Optimization(GRPO)算法应用于语音问答和语音翻译等开放生成任务,并使用BLEU分数作为可验证奖励信号来优化模型。此外,探索了将真实答案作为离线样本纳入GRPO训练组的混合策略(MP-GRPO)。 创新之处:将GRPO从多选任务扩展到更贴近实际应用的开放格式任务;使用简单有效的文本相似度度量(如BLEU)作为强化学习奖励;初步探索了在语音任务中结合在线与离线样本的混合训练策略。 主要结果:在LibriSQA(语音问答)和CoVoST2(语音翻译)数据集上,基于Granite Speech 2B/8B模型的实验表明,GRPO训练在BLEU、ROUGE、BERTScore等多项指标上显著优于SFT和基线模型。例如,在LibriSQA上,GRPO使Granite Speech 2B的BLEU从基线的27.74提升至44.90(+61.8%),相比SFT(40.88)也有9.8%的提升。MP-GRPO在语音翻译任务上进一步带来增益。 实际意义:提供了一种简单高效的语音大模型训练范式,能显著提升模型在实际对话和翻译场景中的生成质量,为开发更强大的语音交互系统提供了新思路。 主要局限:仅在英语语音问答和英德翻译任务上验证;未探索ASR等唯一答案任务;训练计算成本高于SFT;混合策略(MP-GRPO)在语音问答上表现不稳定,需进一步研究;未开源代码和模型,阻碍快速复现与验证。 🏗️ 模型架构 论文并未提出新的模型架构,而是研究如何训练现有的Speech-Aware Large Language Models。其核心训练框架涉及两个主要组件: ...

2026-04-29

ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation

📄 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation #语音翻译 #对比学习 #多任务学习 #数据增强 #低资源 🔥 8.0/10 | 前25% | #语音翻译 | #对比学习 | #多任务学习 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Jialing Wang(1. 教育部民族语言智能分析与安全治理重点实验室,中央民族大学;2. 香港中文大学(深圳)) 通讯作者:Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学) 作者列表:Jialing Wang(教育部民族语言智能分析与安全治理重点实验室,中央民族大学;香港中文大学(深圳))、Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学)、Yuhao Zhang(香港中文大学(深圳))、Haizhou Li(香港中文大学(深圳)) 💡 毒舌点评 亮点:ATOM框架巧妙地将最优传输的“硬”对齐、对比学习的“精”对齐以及语义相似度引导的自适应“软”混合结合成一个闭环,在低资源藏汉翻译任务上实现了显著的BLEU提升(+2.43),证明了其在弥合模态鸿沟方面的实际效力。 短板:论文对于关键的自适应混合公式(3)解释不够清晰(p、σ、γ未明确定义),且消融实验设计较为简单,未能深入剖析各组件协同工作的具体机制和边界条件,使得方法的“自适应”智能性略显黑盒。 📌 核心摘要 要解决的问题:端到端语音翻译(ST)面临训练数据稀缺和源语言语音与目标语言文本之间存在巨大模态鸿沟的双重挑战。 方法核心:提出ATOM框架,结合最优传输(OT)进行初始跨模态对齐,利用基于InfoNCE的对比学习迭代优化对齐质量,并设计一种基于语义相似度的自适应模态混合策略,将对齐后的语音和文本token在特征层面进行融合。 与已有方法相比新在哪里:相比于之前使用固定概率进行模态混合或仅使用单一对齐机制的方法,ATOM实现了“对齐(OT)-精化(对比学习)-融合(自适应混合)”的闭环,且融合权重由token间的语义相似度动态决定,更具灵活性和语义感知能力。 主要实验结果:在MuST-C英德(En-De)和TIBMD藏汉(Ti-Zh)数据集上进行评估。 主实验结果对比表 模型 En-De BLEU Ti-Zh BLEU XSTNET 20.61 11.56 STEMM 20.82 13.61 ConST 20.77 14.66 CMOT 20.84 14.87 OTST 20.88 13.90 ATOM 22.48 17.30 消融实验(En-De):移除对比学习(-LCTR)导致BLEU下降0.34;同时移除对比学习和自适应混合(-CTR -Adaptive Mixup)导致BLEU下降1.64,回落至CMOT的水平(20.84)。 不同对齐损失对比(En-De):CTR损失(21.18)优于OT损失(20.75)和CAR损失(20.09)。 主要结论:ATOM在两个任务上均取得最优结果,相比最强基线CMOT分别提升1.64(En-De)和2.43(Ti-Zh)个BLEU点,在资源更稀缺的Ti-Zh任务上提升尤为显著。 实际意义:为低资源语音翻译提供了一种有效的技术方案,通过挖掘多任务学习中平行文本数据的潜力来提升语音模型性能,对促进欠发达语言的跨语言交流有实用价值。 主要局限性:1)实验对比的基线均为2022-2024年的经典方法,未与更新的、可能基于大规模预训练语音-语言模型的SOTA进行对比;2)自适应混合策略的参数设置(p, τ, γ)依赖经验,缺乏更深入的分析或自动化调参机制;3)论文未公开代码,限制了可复现性和直接应用。 🏗️ 模型架构 ...

2026-04-29

Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System

📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yangfan Du(东北大学计算机科学与工程学院,字节跳动) 通讯作者:Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) 作者列表: Yangfan Du(东北大学计算机科学与工程学院,字节跳动) Jun Zhang(字节跳动) Bin Wang(字节跳动) Jin Qiu(字节跳动) Lu Huang(字节跳动) Yuan Ge(东北大学计算机科学与工程学院) Xiaoqian Liu(东北大学计算机科学与工程学院) Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) Jingbo Zhu(东北大学计算机科学与工程学院,牛津翻译研究院) 💡 毒舌点评 亮点在于提出了一个物理意义明确、轻量且有效的检索范式(将注意力权重解释为出现概率),实验上确实大幅提升了检索召回率。短板则是“术业有专攻”,检索模型的“高召回”并未完美传递给下游的语音大模型,论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足,更像是抛出了一个漂亮的阶段性成果。 📌 核心摘要 问题:语音大模型在通用场景表现优异,但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索,后者存在训练成本高、检索准确率不足的问题。 方法核心:提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库,通过计算语音特征与候选术语之间的交叉注意力权重,并将该权重池化归一化后,直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语,与提示词拼接后输入语音大模型,引导其生成正确术语。 创新之处:与已有方法相比,A2P完全舍弃了向量数据库和模态对齐训练,转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时,引入了课程学习(从单词到短语再到真实术语)策略来缓解数据稀疏问题。 实验结果:在自建数据集上,A2P(使用Qwen2-Audio-Instruction编码器)的检索召回率显著优于VectorDB基线。例如,在Top-10检索中,英文召回率达75.55%,中文达83.31%。在下游任务中,术语干预使ASR的术语准确率提升约5-6%,ST提升12-13%,但术语准确率与召回率仍有差距,表明SLM对术语的利用率存在局限。 实际意义:为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式,并公开了一个专用的术语干预语音数据集,有助于推动该领域研究。 主要局限性:检索到的术语在SLM(尤其在翻译任务)中未被充分利用,导致最终术语准确率远低于检索召回率;随着检索术语数量增加,SLM性能可能出现波动,反映了其上下文学习能力的不足。论文提出的挑战(如何提升ST术语准确率、如何保持基线性能)尚未完全解决。 🏗️ 模型架构 整体架构如图1所示,是一个典型的“检索增强生成”(RAG)流程,但检索器部分被替换。 ...

2026-04-29

Chunk-Wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text

📄 Chunk-Wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text #语音识别 #语音翻译 #流式处理 #注意力机制 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #注意力机制 | #语音翻译 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hainan Xu(NVIDIA Corporation) 通讯作者:未说明 作者列表:Hainan Xu(NVIDIA Corporation)、Vladimir Bataev(NVIDIA Corporation)、Travis M. Bartley(NVIDIA Corporation)、Jagadeesh Balam(NVIDIA Corporation) 💡 毒舌点评 亮点:通过在RNN-T的Joiner中引入“分块注意力”机制,巧妙地在保持流式特性的同时,打破了其严格的单调对齐限制,从而在语音翻译任务上获得了高达18%的BLEU提升,这确实是RNN-T架构一个非常实用且有效的改进方向。短板:论文将效率提升归因于T维度的缩减,但未深入分析在分块注意力引入的计算复杂度(O(C^2))与RNN-T全序列对齐复杂度之间的权衡,也缺乏对不同分块大小选择对模型性能影响的系统性超参数搜索分析。 📌 核心摘要 问题:标准的RNN-T模型在流式语音处理中存在两个主要问题:一是严格的单调对齐限制了其在需要灵活对齐任务(如语音翻译)上的性能;二是基于全序列对齐格的训练和推理计算开销大,效率低。 方法:本文提出了分块注意力转导器(CHAT)。该模型将音频输入划分为固定大小的帧块(chunk),并在Joiner网络中使用多头交叉注意力来聚合每个块内的编码器表示,而不是逐帧处理。模型整体仍保持RNN-T的预测流程(发出空白则推进到下一块,否则在当前块内更新)。 创新:这是首次将分块处理与注意力机制深度结合到RNN-T的Joiner架构中。与RNN-T相比,它在块内引入了非单调、灵活的对齐能力;与纯注意力模型相比,它通过分块和保持空白预测机制,天然支持流式处理。 结果:在多个语言和任务上,CHAT相对于RNN-T基线取得了显著提升。在语音识别(ASR)任务上,相对WER降低最高达6.3%;在语音翻译(AST)任务上,相对BLEU提升最高达18.0%。效率方面,训练峰值内存降低46.2%,训练速度最高提升1.36倍,单句推理速度最高提升1.69倍(见表1和表2)。 意义:CHAT为部署更强大、更高效的流式语音模型提供了一条实用路径,尤其证明了其在语音翻译等复杂任务上的巨大潜力,同时严格保持实时约束。 局限:模型性能依赖于分块大小的选择,论文中未提供选择最优分块大小的通用准则或理论指导。此外,论文未深入分析在块内进行注意力计算带来的额外延迟特性。 🏗️ 模型架构 CHAT模型保留了标准RNN-T的编码器(Encoder)和预测器(Predictor),核心创新在于全新的分块注意力连接器(Chunk-wise Attention Joiner)。 整体流程: 输入:音频波形序列。 编码器(Encoder):采用支持流式处理的Fast-Conformer架构。它对音频进行分块处理(例如,块大小=12帧,对应960ms音频),块内帧可以双向注意力,但只能看到有限的前序块。最终输出为每个音频帧的编码表示序列 henc。 分块与接口:编码器将输出序列 henc 按固定大小 C 划分为多个块。连接器每次接收一个块(包含 C+1 帧,其中1帧是为预测空白而添加的全零帧)以及来自预测器的当前文本历史表示 hpred。 分块注意力连接器: 计算Q/K/V:从 hpred 计算查询 qu;从块内所有编码帧 henc_t 计算键 kt 和值 vt。 缩放点积注意力:qu 与块内所有 kt 计算注意力权重 αt,u,权重和归一化。 聚合:使用权重 αt,u 对块内所有值 vt 进行加权求和,得到上下文向量 cn,u。 联合表示:将 cn,u 与 hpred_u 相加后通过ReLU激活,得到联合表示 hjoint。 输出概率:将 hjoint 投影到词表空间并进行Softmax,得到当前块、当前文本历史下的下一个符号概率分布。 预测器(Predictor):根据历史文本序列生成状态 hpred,与RNN-T中的作用相同。 解码(推理):模型以块为单位进行流式推理。在当前块内,模型基于概率分布反复预测非空白符号(更新 hpred),直到预测出空白符号,然后移动到下一个音频块。 关键设计与动机: ...

2026-04-29

Direct Simultaneous Translation Activation for Large Audio-Language Models

📄 Direct Simultaneous Translation Activation for Large Audio-Language Models #语音翻译 #语音大模型 #数据增强 #流式处理 #多语言 ✅ 6.0/10 | 前25% | #语音翻译 | #数据增强 | #语音大模型 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau) 通讯作者:Derek F. Wong (NLP2CT Lab, University of Macau,由论文中标注†判断) 作者列表:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau)、Yiming Wang (School of Computer Science, Shanghai Jiao Tong University)、Jialong Tang (Tongyi Lab, Alibaba Group)、Baosong Yang (Tongyi Lab, Alibaba Group)、Rui Wang (School of Computer Science, Shanghai Jiao Tong University)、Derek F. Wong (NLP2CT Lab, University of Macau)、Fei Huang (Tongyi Lab, Alibaba Group) 💡 毒舌点评 本文思路巧妙,旨在通过极少量(1%)精心设计的增强数据“激活”而非“重训”大模型的同传能力,实验上也观察到了低延迟场景下的显著收益。然而,方法的关键步骤——如何从截断语音“推测”出对应的正确翻译文本(即式4的终止条件)——依赖于预训练模型自身的概率分布,其通用性和边界情况处理论证不足,更像是一个工程技巧而非一个鲁棒的算法框架,且实验中同传评估基于固定时间chunk的假设可能与实际流式场景存在偏差。 ...

2026-04-29

Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens

📄 Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens #语音翻译 #自监督学习 #端到端 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #端到端 | #自监督学习 #多语言 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA) 通讯作者:未说明 作者列表:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA), Nancy Liu (Amazon Prime Video, USA), Najmeh Sadoughi (Amazon Prime Video, USA), Abhishek Yanamandra (Amazon Prime Video, USA), Abhinav Jain (Amazon Prime Video, USA), Zhu Liu (Amazon Prime Video, USA), Vimal Bhat (Amazon Prime Video, USA) 💡 毒舌点评 亮点:这篇论文直击语音翻译中“翻译腔”这一痛点,用“解耦-传递”的巧思,将困扰领域多年的“韵律平行数据缺失”问题绕了过去,思路清晰且效果显著。短板:研究略显“工程化”,虽然提出了巧妙的对齐机制,但过度依赖一个外部强大且未开源的解耦编解码器(FACodec),且实验仅验证了两个语言对,在更复杂语系或低资源场景下的鲁棒性存疑。 ...

2026-04-29

Equipping Large Language Model with Directional Speech Understanding Capabilities

📄 Equipping Large Language Model with Directional Speech Understanding Capabilities #语音识别 #语音翻译 #语音分离 #波束成形 #大语言模型 #流式处理 ✅ 7.0/10 | 前50% | #语音识别 #语音翻译 | #语音分离 #波束成形 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ju Lin(Meta, USA) 通讯作者:未说明(论文中未明确标注) 作者列表:Ju Lin(Meta, USA)、Jing Pan(Meta, USA)、Ruizhi Li(Meta, USA)、Ming Sun(Meta, USA)、Yuzong Liu(Meta, USA)、Alaa Hassan(Meta, USA)、Jing Zheng(Meta, USA)、Florian Metze(Meta, USA) 💡 毒舌点评 亮点:论文精准聚焦于智能眼镜“听清特定人”的刚需,提出了从系统架构(级联/端到端)到流式推理的全套解决方案,实验设计也比较全面,覆盖了分离、识别、翻译三个环节。短板:所有实验都在模拟数据上“闭卷考试”,缺乏真实世界复杂声学环境的“开卷考验”,这让人对其宣称的“鲁棒性”和实际落地能力打上一个问号;此外,端到端SOT方案在部分任务上不如传统的级联方案,显示出“大而全”未必总是最优解。 📌 核心摘要 这篇论文旨在解决基于大语言模型(LLM)的语音系统在智能眼镜场景中面临的挑战:现有模型多为单通道、单说话人设计,难以处理多麦克风阵列录制的、包含佩戴者(近场)和对话者(远场)的定向多人语音。 论文提出了两种将方向性理解能力集成到LLM中的新方法:1) 级联系统:先利用基于编码器-解码器架构的流式语音分离模型分离佩戴者和对话者的语音,再通过比较RMS比值判断说话人身份,最后将参考通道音频连同任务提示输入LLM;2) 端到端系统:采用序列化输出训练(SOT)策略,直接对LLM进行微调,使其能够处理经非线性约束最小方差(NLCMV)波束成形增强后的单通道音频,并同时输出带说话人标签的识别与翻译结果。两种方法都利用了LoRA进行高效微调,并实现了600毫秒分块的流式推理。 ...

2026-04-29

ICASSP 2026 - 语音翻译 论文列表

ICASSP 2026 - 语音翻译 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality wit 8.5分 前25% 🥈 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speec 8.0分 前25% 🥉 SEP-ST: Incorporating Speech Entity Prompt Into Large Langua 7.5分 前25% 4. Phrased: Phrase Dictionary Biasing for Speech Translation 7.5分 前25% 5. Direct Transfer of Prosody in Speech-to-speech Translation u 7.5分 前25% 6. PROST-LLM: Progressively Enhancing the Speech-to-Speech Tran 7.5分 前25% 7. Revisiting Direct Speech-to-Text Translation with Speech LLM 7.5分 前50% 8. Direct Simultaneous Translation Activation for Large Audio-L 6.0分 前25% 📋 论文详情 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-Token Prediction 🔥 8.5/10 | 前25% | #语音翻译 | #多任务学习 | #语音大模型 #多语言 ...

2026-04-29

Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation

📄 Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation #语音识别 #语音翻译 #自回归模型 #多任务学习 #端到端 ✅ 7.0/10 | 前25% | #语音识别 #语音翻译 | #自回归模型 #多任务学习 | #语音识别 #语音翻译 学术质量 0.7/7 | 选题价值 0.75/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories) 通讯作者:未说明 作者列表:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories)、Ryo Masumura(NTT, Inc., Human Informatics Laboratories)、Naoki Makishima(NTT, Inc., Human Informatics Laboratories)、Mana Ihori(NTT, Inc., Human Informatics Laboratories)、Naotaka Kawata(NTT, Inc., Human Informatics Laboratories)、Shota Orihashi(NTT, Inc., Human Informatics Laboratories)、Satoshi Suzuki(NTT, Inc., Human Informatics Laboratories)、Taiga Yamane(NTT, Inc., Human Informatics Laboratories) 💡 毒舌点评 这篇论文的核心贡献是清晰且务实的:将多说话人重叠语音的识别(ASR)和翻译(ST)从两个独立的模型合并为一个联合自回归模型,从而解决了输出时说话人数量不匹配和未对齐的痛点。其序列化输出训练(SOT)的扩展应用自然流畅,实验数据也支撑了方法的有效性。然而,论文最大的短板在于实验部分严重依赖通过混合单人语音合成的“多说话人”数据,这与真实世界中包含回声、不同混响、说话人重叠程度变化的会议或对话场景存在显著差距,削弱了其结论在实际应用中的说服力。 ...

2026-04-29

LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data

📄 LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data #语音识别 #语音翻译 #半监督学习 #大语言模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 #语音翻译 | #半监督学习 #大语言模型 | #语音识别 #语音翻译 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Wen Ding(NVIDIA Corporation) 通讯作者:未说明 作者列表:Wen Ding(NVIDIA Corporation),Fan Qian(NVIDIA Corporation) 💡 毒舌点评 这篇论文巧妙地将一个在NLP领域成熟的工具(LLM)转化为解决语音SSL中“脏数据”问题的利器,思路实用且效果显著,特别是在AST任务上SOTA的结果很有说服力。然而,其验证的“语音大模型”高度集中于Whisper,缺乏对其他架构(如USM, MMS)的验证,让人好奇该框架是否具有更普适的迁移能力。 📌 核心摘要 要解决的问题:当前最先进的语音基础模型(SFMs)在半监督学习中利用从真实世界(in-the-wild)收集的未标注音频数据时,面临一个核心挑战:这些数据声学环境复杂多样,模型生成的伪标签质量较低,导致训练效果不佳。 方法核心:提出了LESS框架。该框架在标准的无教师-学生(Noisy Student Training)SSL流程中,引入一个文本大语言模型(LLM)作为“校正器”,对SFMs(如Whisper)在未标注音频上生成的伪标签(ASR转录或AST翻译文本)进行修正。随后,通过一个基于WER(词错误率)变化的数据过滤策略,筛选出LLM修正后质量更高的伪标签,与原始有标签数据混合,用于迭代微调SFMs。 与已有方法相比新在哪里:传统SSL方法要么专注于训练策略优化,要么使用小型模型和经过筛选的无标签数据。LESS的创新在于:(a) 首次系统性地将LLM集成到面向真实世界、嘈杂数据的语音SSL流程中,作为独立的伪标签优化模块;(b) 提出了“WER Prompting”技巧,让LLM在生成修正文本时同时输出估计的WER,可辅助过滤;(c) 专门设计并验证了该框架在“真实世界”数据场景下的有效性,而不仅仅是使用现有干净数据集忽略其标签。 主要实验结果: 中文ASR:在WenetSpeech测试集上,相比仅使用AISHELL-1训练的监督基线,经过三轮LESS迭代训练后,WER从17.7%绝对下降至13.9%,降幅达3.8%。在领域内测试集AISHELL-1/2上,WER保持稳定(约3.0%/5.2%)。 西语-英语AST:在Callhome和Fisher测试集上,LESS方法达到了34.0和64.7的BLEU分数,显著优于监督基线(33.5, 64.2)和不加LESS的标准NST(33.2, 64.0)。 消融实验:验证了通用LLM(Yi-Large)比代码专精LLM(Qwen2.5-coder)更适合纠错;WER提示词(WER Prompting)和严格的过滤阈值(0.1)能带来性能提升。 实际意义:该框架为利用海量、易获取但质量低劣的网络语音数据训练更强健、适应性更广的语音大模型提供了一种有效的工程化路径,有助于降低对昂贵精标数据的依赖。 主要局限性:研究中使用的语音大模型(SFMs)主要局限于Whisper Large-v3,未验证该方法在其他主流架构(如USM, MMS)上的泛化能力。此外,对于AST任务,仅进行了一轮迭代实验,多轮迭代的潜力和收敛情况有待探索。真实世界数据的噪声和多样性控制标准未深入讨论。 🏗️ 模型架构 论文提出的是一个迭代优化的流水线框架(LESS),而非一个独立的新模型架构。其核心组件和数据流如下: ...

2026-04-29