Phrased: Phrase Dictionary Biasing for Speech Translation

📄 Phrased: Phrase Dictionary Biasing for Speech Translation #语音翻译 #偏差学习 #多语言 #流式处理 #多模态模型 ✅ 7.5/10 | 前25% | #语音翻译 | #偏差学习 | #多语言 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Peidong Wang(Microsoft CoreAI) 通讯作者:Jinyu Li(Microsoft CoreAI) 作者列表:Peidong Wang(Microsoft CoreAI)、Jian Xue(Microsoft CoreAI)、Rui Zhao(Microsoft CoreAI)、Junkun Chen(Microsoft CoreAI)、Aswin Shanmugam Subramanian(Microsoft CoreAI)、Jinyu Li(Microsoft CoreAI) 💡 毒舌点评 亮点:本文提出的PHRASED方法具有良好的通用性,能将同一个思路(利用双语短语对)同时应用于传统的流式端到端模型(CTC-GMM)和新兴的多模态大模型,并在后者上实现了显著的短语召回率提升。短板:实验仅在中-英翻译任务上验证,且所用的“短语列表”规模(3K)与真实工业场景(可能包含数十万条目)的匹配度和鲁棒性存疑;此外,论文未提供任何代码或模型,极大地限制了其可复现性和直接应用价值。 📌 核心摘要 要解决的问题:实体短语(如专有名词、新词)因在训练数据中罕见,在端到端语音翻译(ST)中容易被错误翻译,影响核心语义理解。 方法核心:提出短语字典偏差(PHRASED),利用用户提供的源语言-目标语言实体短语对 {I: O} 来增强翻译。核心是先从中间表示(如ASR文本)中匹配源语言短语 I,再对匹配到的目标语言短语 O 进行概率加分。 新在何处:首次为端到端语音翻译设计并验证了“短语字典偏差”机制,与传统的仅使用目标短语列表(PLB)的偏差方法不同,它显式利用了源语言信息。同时,将该方法成功适配到流式Transducer模型和多模态大模型两种架构。 主要实验结果:在中文到英文的RealSI测试集上,PHRASED使流式CTC-GMM模型的短语召回率相对PLB提升了21%;使Phi-4多模态大模型的BLEU提升2.9点,短语召回率相对基线提升85%,远超PLB在大模型上失败的表现。关键数据见下表。 表1:流式语音翻译模型结果(RealSI 中-英) ...

2026-04-29