Revisiting Direct Speech-to-Text Translation with Speech LLMS: Better Scaling than Cot Prompting?
📄 Revisiting Direct Speech-to-Text Translation with Speech LLMS: Better Scaling than Cot Prompting? #语音翻译 #语音大模型 #端到端 #多语言 ✅ 7.5/10 | 前50% | #语音翻译 | #语音大模型 | #端到端 #多语言 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Oriol Pareras(巴塞罗那超级计算中心) 通讯作者:未说明 作者列表:Oriol Pareras(巴塞罗那超级计算中心), Gerard I. Gállego(巴塞罗那超级计算中心, 加泰罗尼亚理工大学), Federico Costa(巴塞罗那超级计算中心, 加泰罗尼亚理工大学), Cristina España-Bonet(巴塞罗那超级计算中心, 德国人工智能研究中心), Javier Hernando(巴塞罗那超级计算中心, 加泰罗尼亚理工大学) 💡 毒舌点评 论文实验设计严谨,通过控制单一变量(S2TTpl数据规模)清晰揭示了Direct prompting优于CoT的“数据扩展性”,为后续研究指明了一个务实且资源效率更高的方向。但不足之处在于,所有结论均建立在“翻译器质量上乘”的伪标签数据之上,且最终Direct并未实现对CoT的绝对超越,其宣称的“更好扩展性”在缺乏更大规模数据验证的情况下,略显前瞻性有余而实证不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了公开的ASR/T2TT/S2TT数据集。论文构建的伪标签S2TTpl数据集未提及是否公开。 Demo:未提及在线演示。 复现材料:提供了部分训练细节(如学习率、批量大小、硬件),但缺失关键配置文件、数据处理脚本和检查点信息。 论文中引用的开源项目: 骨干LLM:salamandraTA-7B-Instruct (HuggingFace) 语音编码器:mHuBERT from TWIST (HuggingFace) 语音质量评估:BLASER 2.0 (HuggingFace) 语言识别:GlotLID v3 评估工具:SacresBLEU, XCOMET-XL (HuggingFace) 训练框架:Transformers, DeepSpeed 开源计划:论文中未提及开源计划。 📌 核心摘要 问题:当前基于LLM的端到端语音到文本翻译(S2TT)主流采用思维链(CoT)提示策略,即先转录后翻译。但CoT的优势主要源于可利用海量ASR和文本翻译(T2TT)数据。本文研究随着专用S2TT数据规模增加,CoT是否仍是最佳选择,以及直接翻译(Direct)策略的扩展潜力。 方法:通过伪标签方法构建大规模多语言S2TT数据集(将ASR语料的转录翻译为6种欧洲语言),并系统性地对比了Direct和CoT两种提示策略在从小到大不同数据规模下的性能表现。 新意:这是首个在如此大规模(约384M目标token)和多语言(6种语言)伪标签S2TT数据上,系统对比Direct和CoT提示策略扩展行为的研究。挑战了CoT在S2TT中的固有优势假设。 结果:在Fleurs基准测试上,随着伪标签S2TT数据(S2TTpl)规模从0%增加到100%: Direct策略的xCOMET分数(S2TT核心指标)持续稳定提升,从基线80.6升至88.0(见图3a)。 CoT策略在20%数据规模时达到峰值(~90.0 xCOMET),之后性能反而下降。 同时,CoT策略的ASR子任务性能(WER)随数据增加而显著恶化(图3b),而Direct策略保持稳定。详细的跨语言趋势见图4。 基线对比(全量ASR+T2TT+S2TT数据,无伪标签S2TTpl数据):CoT基线(26.39 BLEU / 88.0 xCOMET)显著优于Direct基线(21.04 BLEU / 80.6 xCOMET),具体见表2。 意义:表明在S2TT数据稀缺时,CoT因其能复用ASR/T2TT数据而占优;但随着S2TT数据规模增大,更简单、计算成本更低(约减半)的Direct策略显示出更优的扩展潜力,是未来构建大规模S2TT系统的一个有前景的方向。 局限:所有S2TT数据均为伪标签生成,其质量(依赖翻译模型和过滤器)直接影响结论。论文未探索Direct策略在利用副语言信息(如韵律)方面的潜在优势。 🏗️ 模型架构 论文构建的S2TT系统是一个端到端的LLM模型,由语音编码器和LLM骨干网络组成。 ...