TTA: Transcribe, Translate and Alignment for Cross-Lingual Speech Representation
📄 TTA: Transcribe, Translate and Alignment for Cross-Lingual Speech Representation #语音识别 #语音翻译 #多任务学习 #多语言 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #语音识别 | #多任务学习 | #语音翻译 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Liu(腾讯AI Lab, USA) 通讯作者:未说明 作者列表:Wei Liu(腾讯AI Lab, USA)、Jiahong Li(腾讯AI Lab, USA)、Yiwen Shao(未说明)、Dong Yu(未说明) 💡 毒舌点评 亮点: 论文针对Whisper编码器在Speech-LLM应用中的具体痛点(输入长度限制、模型臃肿、中文语义弱)设计了专用的轻量模型TTA,并通过巧妙的ZT-AED混合架构和显式对齐损失,在显著更小的模型规模上实现了性能反超,思路清晰且实用。 短板: 模型容量的“天花板”效应在语音翻译任务上暴露无遗(仍落后于Whisper-Large),且论文声称验证了“跨语言能力”对ASR无益,但所用的跨语言检索评估方式和“能力”定义略显单一,结论的普适性有待更深入探讨。 📌 核心摘要 要解决什么问题: 现有Speech-LLM模型(如Qwen-Audio)普遍采用的Whisper编码器存在输入长度受限(30秒)、模型规模庞大、中文语义性能较弱等局限,影响了集成效率与效果。 方法核心是什么: 提出轻量级模型TTA(Transcribe, Translate and Alignment),采用混合Zipformer-Transducer与注意力编码器-解码器(ZT-AED)架构。模型在358k小时的多语言数据上联合训练自动语音识别(ASR)、语音翻译(ST)和一个基于BERT的对比学习语音-文本对齐任务。 与已有方法相比新在哪里: ①架构上:创新性地将高效的Zipformer编码器与专为ASR/ST设计的双分支(Transducer + AED)解码结构结合,专门优化语义表示。②训练目标上:显式引入对比学习对齐损失,强化跨语言语义空间的构建。③验证深度上:系统研究了跨语言能力、ASR与ST之间的相互关系。 主要实验结果如何: TTA模型(~250M参数)在多个中文和英文基准测试上显著优于Whisper Medium(762M参数),并在部分多语言基准(如CommonVoice)上超越Whisper Large-v3。在跨语言语音检索任务上超越Whisper Large-v2。作为编码器接入ASR-LLM系统时,TTA编码器表现出最优的识别性能和优化效率。关键对比数据见下表(Table 1节选): 数据集 指标 Whisper Medium Whisper Large-v3 TTA (Ours) aishell 1 CER↓ 6.74 5.33 1.85 librispeech clean WER↓ 2.88 2.01 1.58 commonvoice (avg) WER↓ 11.86 8.30 6.76 covostv2 BLEU↑ 35.12 37.60 35.28 实际意义是什么: 为Speech-LLM提供了一种更高效、语义更强大的语音编码器选择,有望降低系统复杂度并提升下游任务性能。其设计思路和结论对多任务语音表示学习有参考价值。模型承诺开源,将促进后续研究。 主要局限性是什么: ①模型容量限制导致其在语音翻译上仍无法匹敌超大模型(Whisper-Large)。②在零样本评估(Fleurs)上未超越Whisper-Large,泛化能力存疑。③论文观察到强化跨语言对齐可能对ASR带来轻微性能下降,揭示了任务目标间的潜在张力。 🏗️ 模型架构 TTA的整体架构如图1(pdf-image-page2-idx0)所示,是一个多任务、多分支的端到端系统。 ...