Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
📄 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective #语音生成 #语音大模型 #模型评估 #零样本 #基准测试 ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 本文像一份详尽的“体检报告”,精准诊断出端到端语音大模型“语义表达不畅”的三大病根:音素编码不语义、序列太长、口音情绪太杂乱,并证明后两者影响远大于第一个。然而,光有诊断没有药方,论文止步于“未来可从短序列和强监督入手”的开放式建议,对于急需突破的社区而言,这记重拳打在了空气里。 ...