ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation
📄 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation #语音翻译 #对比学习 #多任务学习 #数据增强 #低资源 🔥 8.0/10 | 前25% | #语音翻译 | #对比学习 | #多任务学习 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Jialing Wang(1. 教育部民族语言智能分析与安全治理重点实验室,中央民族大学;2. 香港中文大学(深圳)) 通讯作者:Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学) 作者列表:Jialing Wang(教育部民族语言智能分析与安全治理重点实验室,中央民族大学;香港中文大学(深圳))、Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学)、Yuhao Zhang(香港中文大学(深圳))、Haizhou Li(香港中文大学(深圳)) 💡 毒舌点评 亮点:ATOM框架巧妙地将最优传输的“硬”对齐、对比学习的“精”对齐以及语义相似度引导的自适应“软”混合结合成一个闭环,在低资源藏汉翻译任务上实现了显著的BLEU提升(+2.43),证明了其在弥合模态鸿沟方面的实际效力。 短板:论文对于关键的自适应混合公式(3)解释不够清晰(p、σ、γ未明确定义),且消融实验设计较为简单,未能深入剖析各组件协同工作的具体机制和边界条件,使得方法的“自适应”智能性略显黑盒。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:所使用的MuST-C和TIBMD@MUC是公开或部分公开的学术数据集,论文中说明了其来源。 Demo:未提供在线演示。 复现材料:论文给出了详细的实验设置、超参数配置(学习率、批大小、优化器、模型维度等)、评估指标和数据集统计,为复现提供了基础信息,但未提供完整的训练代码或配置文件。 论文中引用的开源项目:明确基于 FAIRSEQ 工具包进行实现;使用了 HuBERT 作为语音编码器;使用了 SentencePiece 进行分词;使用了 sacreBLEU 进行评估。 📌 核心摘要 要解决的问题:端到端语音翻译(ST)面临训练数据稀缺和源语言语音与目标语言文本之间存在巨大模态鸿沟的双重挑战。 方法核心:提出ATOM框架,结合最优传输(OT)进行初始跨模态对齐,利用基于InfoNCE的对比学习迭代优化对齐质量,并设计一种基于语义相似度的自适应模态混合策略,将对齐后的语音和文本token在特征层面进行融合。 与已有方法相比新在哪里:相比于之前使用固定概率进行模态混合或仅使用单一对齐机制的方法,ATOM实现了“对齐(OT)-精化(对比学习)-融合(自适应混合)”的闭环,且融合权重由token间的语义相似度动态决定,更具灵活性和语义感知能力。 主要实验结果:在MuST-C英德(En-De)和TIBMD藏汉(Ti-Zh)数据集上进行评估。 主实验结果对比表 模型 En-De BLEU Ti-Zh BLEU XSTNET 20.61 11.56 STEMM 20.82 13.61 ConST 20.77 14.66 CMOT 20.84 14.87 OTST 20.88 13.90 ATOM 22.48 17.30 消融实验(En-De):移除对比学习(-LCTR)导致BLEU下降0.34;同时移除对比学习和自适应混合(-CTR -Adaptive Mixup)导致BLEU下降1.64,回落至CMOT的水平(20.84)。 不同对齐损失对比(En-De):CTR损失(21.18)优于OT损失(20.75)和CAR损失(20.09)。 主要结论:ATOM在两个任务上均取得最优结果,相比最强基线CMOT分别提升1.64(En-De)和2.43(Ti-Zh)个BLEU点,在资源更稀缺的Ti-Zh任务上提升尤为显著。 实际意义:为低资源语音翻译提供了一种有效的技术方案,通过挖掘多任务学习中平行文本数据的潜力来提升语音模型性能,对促进欠发达语言的跨语言交流有实用价值。 主要局限性:1)实验对比的基线均为2022-2024年的经典方法,未与更新的、可能基于大规模预训练语音-语言模型的SOTA进行对比;2)自适应混合策略的参数设置(p, τ, γ)依赖经验,缺乏更深入的分析或自动化调参机制;3)论文未公开代码,限制了可复现性和直接应用。 🏗️ 模型架构 ...