X-VC: Zero-shot Streaming Voice Conversion in Codec Space
📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #流匹配 #零样本 #流式处理 ✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qixi Zheng(上海交通大学) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表: Qixi Zheng(上海交通大学) Yuxiang Zhao(上海交通大学) Tianrui Wang(天津大学) Wenxi Chen(上海交通大学,上海创新研究院) Kele Xu(复杂与关键软件环境国家重点实验室) Yikang Li(上海创新研究院) Qinyuan Chen(复旦大学,上海创新研究院) Xipeng Qiu(复旦大学,上海创新研究院) Kai Yu(上海交通大学) Xie Chen(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文的工程实现非常扎实,将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统,在延迟(240ms)和离线效率(RTF 0.014)上达到了实用水平,且开源了代码和模型。 短板:核心创新略显“缝合”,双条件建模和流匹配都是已有技术,论文的主要贡献在于针对特定任务的适配和系统集成,缺乏更根本性的原理突破;同时,与之对比的基线(如MeanVC)可能并非最新或最强,削弱了结论的说服力。 📌 核心摘要 问题:零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理,这是一个尚未很好解决的挑战。 方法核心:提出X-VC系统,在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器,它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件,并通过自适应归一化注入全局说话人嵌入。 创新点:与已有方法相比,新在:(1) 在编解码器潜在空间而非波形或频谱图空间进行转换;(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件;(3) 提出了基于生成对数据和角色分配策略的训练方法;(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。 实验结果:在Seed-TTS-Eval基准上,流式设置下,X-VC在英语和中文测试集上取得了最佳的WER(英语3.14%,中文2.65%)和领先的说话人相似度(SIM)。离线设置下,其实时因子(RTF)仅为0.014,远低于基线模型(如Seed-VC tiny为0.069)。跨语言评估也表现良好。 实际意义:提供了一种实用的高质量低延迟零样本语音转换方案,适用于需要实时交互的配音、对话等场景。 主要局限性:模型总参数量较大(539M);转换质量高度依赖预训练编解码器(SAC)的性能;论文未提供完整的训练数据集信息。 🏗️ 模型架构 X-VC是一个端到端的语音转换系统,整体流程如图1所示: ...