DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations
📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #自回归模型 #多模态模型 #语音合成 #语音识别 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Chao-Hong Tan (Tongyi Fun Team, Alibaba Group) 通讯作者:未明确说明,根据邮箱推测为团队负责人(如tanchaohong.ch@alibaba-inc.com) 作者列表:Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (所属机构均为 Tongyi Fun Team, Alibaba Group) 💡 毒舌点评 亮点:DrVoice的“双分辨率”设计堪称点睛之笔,通过一个简洁的分组/解分组机制,巧妙平衡了语音处理的计算效率(输入降至5Hz)与生成保真度(SRH在25Hz下精细化生成),在降低近半训练开销的同时性能不降反升,工程落地潜力巨大。 短板:论文专注于单向语音生成的对话模式,但真实的人机语音交互需要全双工能力(即能边听边说),作者在局限性中也承认了这一点。目前模型更像一个强大的“单口相声”演员,而非能自然打断和回应的真正对话伙伴。 ...