Phrased: Phrase Dictionary Biasing for Speech Translation
📄 Phrased: Phrase Dictionary Biasing for Speech Translation #语音翻译 #偏差学习 #多语言 #流式处理 #多模态模型 ✅ 7.5/10 | 前25% | #语音翻译 | #偏差学习 | #多语言 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Peidong Wang(Microsoft CoreAI) 通讯作者:Jinyu Li(Microsoft CoreAI) 作者列表:Peidong Wang(Microsoft CoreAI)、Jian Xue(Microsoft CoreAI)、Rui Zhao(Microsoft CoreAI)、Junkun Chen(Microsoft CoreAI)、Aswin Shanmugam Subramanian(Microsoft CoreAI)、Jinyu Li(Microsoft CoreAI) 💡 毒舌点评 亮点:本文提出的PHRASED方法具有良好的通用性,能将同一个思路(利用双语短语对)同时应用于传统的流式端到端模型(CTC-GMM)和新兴的多模态大模型,并在后者上实现了显著的短语召回率提升。短板:实验仅在中-英翻译任务上验证,且所用的“短语列表”规模(3K)与真实工业场景(可能包含数十万条目)的匹配度和鲁棒性存疑;此外,论文未提供任何代码或模型,极大地限制了其可复现性和直接应用价值。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:评估使用了RealSI和OntoNote5,但未说明是否提供了预处理后的版本或获取方式。 Demo:未提及。 复现材料:论文给出了一些训练超参数(如学习率、步数)和模型规模,但未提供完整的训练配置、数据预处理脚本或评估代码。不足以支撑完全复现。 论文中引用的开源项目:未提及依赖的特定开源工具/模型,Phi-4-multimodal为外部开源模型。 总体,论文中未提及开源计划。 📌 核心摘要 要解决的问题:实体短语(如专有名词、新词)因在训练数据中罕见,在端到端语音翻译(ST)中容易被错误翻译,影响核心语义理解。 方法核心:提出短语字典偏差(PHRASED),利用用户提供的源语言-目标语言实体短语对 {I: O} 来增强翻译。核心是先从中间表示(如ASR文本)中匹配源语言短语 I,再对匹配到的目标语言短语 O 进行概率加分。 新在何处:首次为端到端语音翻译设计并验证了“短语字典偏差”机制,与传统的仅使用目标短语列表(PLB)的偏差方法不同,它显式利用了源语言信息。同时,将该方法成功适配到流式Transducer模型和多模态大模型两种架构。 主要实验结果:在中文到英文的RealSI测试集上,PHRASED使流式CTC-GMM模型的短语召回率相对PLB提升了21%;使Phi-4多模态大模型的BLEU提升2.9点,短语召回率相对基线提升85%,远超PLB在大模型上失败的表现。关键数据见下表。 表1:流式语音翻译模型结果(RealSI 中-英) ...