Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning
📄 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning #语音交互 #语音大模型 #模型融合 #低资源 #参数高效微调 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8.5/10 | 前25% | #语音交互 | #模型融合 | #语音大模型 #低资源 | arxiv 👥 作者与机构 第一作者:Congrui Du(机构未明确给出,但论文匿名期已过,推断来自UC Santa Barbara,因项目主页域名为ucsb.edu) 通讯作者:未明确标示,通常为末位作者Shiyu Chang。 作者列表:Congrui Du, Yang Zhang, Kaizhi Qian, Shiyu Chang。机构均未在论文首页明确注明。 💡 毒舌点评 本文用一个极度精简、甚至有些投机取巧的权重组合方案,试图颠覆SLM必须堆数据和指令微调的昂贵范式,效果竟然出奇地好,尤其在重音检测与生成任务上碾压所有基线。思路的优雅与执行的高效令人印象深刻,但推理时对Whisper ASR、格式强制等一系列外部组件的强依赖暴露出其“伪端到端”的本质,更像是一个精心设计的系统工程集成,而非一个能独立感知与交互的语音原生模型。格式输出的不稳定性问题被作者一笔带过,但这是实用化的致命伤;长思考能力虽由推理模板“免费”激活,却也因缺乏训练监督而容易失效。 ...