Towards True Speech-to-Speech Models Without Text Guidance
📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #大语言模型 #端到端 #预训练 #流式处理 🔥 9.1/10 | 前10% | #语音对话系统 | #大语言模型 #端到端 | #大语言模型 #端到端 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xingjian Zhao (Fudan University, MOSI.AI) 通讯作者:Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 作者列表:Xingjian Zhao (Fudan University, MOSI.AI)、Zhe Xu (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Luozhijie Jin (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Yang Wang (Fudan University, MOSI.AI)、Hanfu Chen (Fudan University, MOSI.AI)、Yaozhou Jiang (Fudan University, MOSI.AI)、Ke Chen (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Ruixiao Li (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Mingshu Chen (Fudan University, MOSI.AI)、Ruiming Wang (Fudan University, MOSI.AI)、Wenbo Zhang (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Qinyuan Cheng (Fudan University, MOSI.AI)、Zhaoye Fei (Fudan University, MOSI.AI)、Shimin Li (MOSI.AI)、Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 机构:复旦大学、上海创新研究院、MOSI.AI。 💡 毒舌点评 这篇工作真正意义上逼近了“无文本指导”的语音大模型愿景,其“模态分层”设计从隐藏状态相似性分析中获得灵感,是工程直觉与理论分析的漂亮结合。然而,其高质量合成数据的依赖(特别是助理端语音)和庞大的模型参数量,可能使其在“真实性”和部署门槛上面临现实挑战,离真正廉价、通用的语音交互还有一步之遥。 ...