X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning
📄 X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning #语音合成 #语音克隆 #流匹配 #多语言 #零样本 🔥 8.0/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Rixi Xu(上海交通大学,MoE Key Lab of Artificial Intelligence, X-LANCE Lab) 通讯作者:Xie Chen(上海交通大学,MoE Key Lab of Artificial Intelligence, X-LANCE Lab; 上海创新研究院) 作者列表:Rixi Xu(上海交通大学X-LANCE实验室)、Qingyu Liu(上海交通大学X-LANCE实验室; 约翰霍普金斯大学CLSP)、Haitao Li(浙江大学; 北京海天瑞声科技有限公司)、Yushen Chen(上海交通大学X-LANCE实验室; 上海创新研究院)、Zhikang Niu(上海交通大学X-LANCE实验室; 上海创新研究院)、Yunting Yang(吉利汽车研究院(宁波)有限公司)、Jian Zhao(吉利汽车研究院(宁波)有限公司)、Ke Li(北京海天瑞声科技有限公司)、Berrak Sisman(约翰霍普金斯大学CLSP)、Qinyuan Cheng(上海创新研究院; 复旦大学)、Xipeng Qiu(上海创新研究院; 复旦大学)、Kai Yu(上海交通大学)、Xie Chen(上海交通大学X-LANCE实验室; 上海创新研究院) 注:论文明确说明第一作者Rixi Xu与通讯作者Xie Chen贡献相当,且Xie Chen为通讯作者。 💡 毒舌点评 亮点在于其“两阶段免文本提示”训练范式非常巧妙,利用第一阶段模型生成的数据来训练第二阶段的免文本能力,形成了一个优雅的数据自举闭环,并且全套资源(数据、模型、评测)的开源诚意十足。短板是模型规模(0.4B)限制了其在极端复杂口音或高保真场景下的表现上限,且非流式推理的时延对于实时交互应用可能仍是一个瓶颈。 ...