Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion
📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学、鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学、鹏城实验室) (论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室), Youcheng Pan(鹏城实验室), Zekun Wang(哈尔滨工业大学), Zheng Chu(哈尔滨工业大学), Yichong Huang(哈尔滨工业大学), Kaiyuan Liu(哈尔滨工业大学,鹏城实验室), Bo Yang(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室), Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 本文巧妙地将语音合成(TTS)和多模态大语言模型(MLLM)结合,提出了“语音引导机器翻译(SMT)”框架,并创新性地引入自监督进化机制来缓解数据稀缺问题,最终在多个基准上取得显著成绩。不过,其自监督进化机制中用于筛选“正负样本”的核心标准(COMET分数差异)略显简单粗暴,且迭代过程可能陷入局部最优,对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...