SpeechMapper: Speech-To-Text Embedding Projector for LLMs
📄 SpeechMapper: Speech-To-Text Embedding Projector for LLMs #语音大模型 #预训练 #零样本 #大语言模型 #迁移学习 ✅ 7.0/10 | 前25% | #语音大模型 | #预训练 | #零样本 #大语言模型 学术质量 6.8/7 | 选题价值 6.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Biswesh Mohapatra (Inria Paris) 通讯作者:未说明 作者列表:Biswesh Mohapatra (Inria Paris), Marcely Zanon Boito (NAVER LABS Europe), Ioan Calapodescu (NAVER LABS Europe) 💡 毒舌点评 这篇论文的亮点在于其务实且高效的系统设计:通过将预训练阶段与LLM解耦,仅依赖嵌入层匹配,使得在消费级GPU上预训练投影器成为可能,且1K步的适应阶段就能达到强基线水平,这为资源受限团队快速接入语音能力提供了可行方案。不过,短板也明显:论文缺乏代码公开,且评估任务局限于ST和SQA,对于“Speech-to-Text Embedding Projector”这一名称所承诺的通用性,实验证据稍显单薄。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的模型权重。 数据集:使用的是公开数据集(LibriSpeech, EuroParlST, CoVoST2, SpokenSQuAD, LibriSQA),但未说明如何获取其特定子集。 Demo:未提及。 复现材料:论文提供了非常详细的训练设置(库、硬件、步数、学习率等)和损失函数公式,为复现提供了重要信息。但最终模型和代码的缺失仍是障碍。 论文中引用的开源项目:使用了Seamless-m4t-v2-large作为SFM,Llama-3.1-8B-Instruct和EuroLLM-9B-Instruct作为LLM,并引用了pasero[29]、torchtune[32]、transformers[33]等库。 论文中未提及开源计划。 📌 核心摘要 问题:现有将语音基础模型(SFM)接入大语言模型(LLM)的方法(如联合微调)计算成本高昂,且容易在特定任务或提示上过拟合,泛化能力不足。 方法核心:提出SpeechMapper,一个两阶段的语音到LLM嵌入投影器。第一阶段(预训练)仅使用LLM的嵌入层,通过最小化投影器输出与对应文本LLM嵌入的均方误差(MSE)来学习映射,无需LLM的前向计算。第二阶段(适应)仅用1K步指令调优(IT)将预训练好的投影器连接到冻结的LLM上。 创新点:1) 解耦训练:预训练阶段独立于LLM,降低了硬件需求和计算成本。2) pad填充的MSE损失:通过向目标嵌入序列添加pad token来隐式对齐长度不匹配的语音和文本序列,避免了显式对齐器。3) 灵活的适应策略:在第二阶段通过调节MSE损失的权重σ,可以平衡零样本泛化(σ>0)与任务特定性能(σ=0)。 主要实验结果:在语音翻译(ST)和口语问答(SQA)任务上,SpeechMapper表现优异。在零样本(任务无关)设置下,其最佳变体(使用EuroLLM)在SQA上与IWSLT25竞赛最佳系统(BEST-IWSLT25-IF)持平甚至超越;在任务特定设置下,仅用1K步训练便全面超越该基线。例如,在Spoken SQuAD上,其任务特定版本准确率达87.4%,与基线持平。 任务 指标 数据集 SpeechMapper (零样本) SpeechMapper (任务特定) BEST-IWSLT25-IF Transcripts + EuroLLM ST (COMET) en-es EuroParl 79.9 85.4 83.5 85.9 ST (COMET) en-zh CoVoST2 72.0 79.9 80.7 80.0 SQA (Acc.) PartII LibriSQA 64.3 68.1 62.5 73.4 5. 实际意义:提供了一种成本效益高、可扩展的方案,用于将现有文本LLM快速赋能语音能力,且能平衡零样本通用性与任务专精性,降低了语音AI应用开发的门槛。 6. 主要局限性:1) 评估仅限于两个任务(ST和SQA),对于其作为通用“嵌入投影器”的广泛适用性证明不足。2) 在更大型或不同架构的LLM上(如Llama 3.1 8B)效果不稳定,标准差较大。3) 论文未开源代码和模型。 🏗️ 模型架构 SpeechMapper的整体架构分为三个部分:冻结的语音基础模型(SFM)、投影器(Projector)和冻结的大语言模型(LLM)。其数据流与交互过程如下: ...