Towards True Speech-to-Speech Models Without Text Guidance
📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #端到端 #大语言模型 #预训练 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #大语言模型 #预训练 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xingjoint Zhao(复旦大学) 通讯作者:Xipeng Qiu(复旦大学) 作者列表:Xingjoint Zhao¹³(1.复旦大学,2.上海创新研究院,3.MOSI.AI),Zhe Xu¹²³,Luozhijie Jin¹²³,Yang Wang¹³,Hanfu Chen¹³,Yaozhou Jiang¹³,Ke Chen¹²³,Ruixiao Li¹²³,Mingshu Chen¹³,Ruiming Wang¹³,Wenbo Zhang¹²³,Qinyuan Cheng¹³,Zhaoye Fei¹³,Shimin Li³,Xipeng Qiu¹²³† 💡 毒舌点评 亮点:论文直击当前语音对话模型“伪端到端”(依赖文本指导)的痛点,提出的模态分层架构和冻结预训练策略,为在LLM中集成原生语音能力并保留文本智能提供了一个有原理性支撑且实验有效的解决方案。短板:尽管自称为“真”语音到语音模型,但其语音理解与生成的底层仍严重依赖于强大的文本LLM骨干和高质量的文本-语音配对数据,其“无文本指导”更多体现在生成阶段,训练阶段对文本的依赖并未摆脱;此外,对于更复杂的、富含副语言信息的开放式对话场景,模型的表现力有待进一步验证。 📌 核心摘要 本文旨在解决现有语音对话系统依赖文本中间环节导致的延迟增加、副语言信息丢失和表达力受限的问题。核心方法是构建一个真正的、无需文本指导的语音到语音大语言模型,其技术核心是模态分层架构(在Transformer顶层为文本和语音设置独立分支)与冻结预训练策略(第一阶段冻结预训练文本LLM,仅训练语音相关模块;第二阶段再联合微调)。与已有方法相比,其创新在于明确观察并利用了跨模态表示在模型深度上的演变规律(先融合后分化),并设计了对应的架构进行适配,同时通过冻结策略有效防止了文本能力的灾难性遗忘。主要实验结果表明:1)在口语问答任务上(如LlamaQA),模型的语音到语音(S→S)性能(63.67%)达到了与文本指导系统(GLM-4-Voice*:65.67%)可比的水平,并在WebQA上(36.71%)超越了后者(38.34%),在部分任务上取得SOTA;2)模型在文本能力基准(MMLU: 67.19, CMMLU: 69.53)上相比引入语音前的文本LLM(Qwen3-8B: MMLU 76.6, CMMLU 77.35)的下降幅度远小于SpiritLM等模型;3)语音编码器/解码器在WER、SIM等指标上具备竞争力。该工作为构建高效、富有表现力的端到端语音交互系统建立了新的范式。主要局限性在于训练依赖大规模、高质量的语音-文本数据(包括合成数据),且模型在复杂对话、长时交互和极端副语言场景下的能力尚未充分评估。 ...