X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Qixi Zheng (上海交通大学) 通讯作者:Xie Chen (上海交通大学,上海创新研究院) 其他作者: Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学,上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学,上海创新研究院) Xipeng Qiu (复旦大学,上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评 亮点:这篇论文最大的亮点是“化繁为简”,把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器(SAC)的潜在空间里,用一步转换就搞定了,既避免了传统分析-合成管线的繁琐,又天然支持流式处理,RTF低得惊人。槽点:模型严重依赖一个高质量的、特定的编解码器(SAC),这相当于把“转换”这个核心难题的部分压力转移给了“重建”,有点“站在巨人肩膀上摘苹果”的意思;此外,539M的参数量对部署场景的硬件要求可不低。 📌 核心摘要 这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统,其核心创新在于在预训练神经编解码器(SAC)的潜在空间中进行一步式语音转换,而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器,联合建模来自源语音的编解码器潜在表征(内容)和来自目标参考语音的帧级声学条件(梅尔谱)及句级说话人嵌入(身份),实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配,论文设计了基于生成配对数据和角色分配策略(标准、重建、反转模式)的训练范式。实验表明,X-VC在Seed-TTS-Eval基准测试中,在英语和中文的流式词错率(WER) 上取得最佳,同时在同语种和跨语种场景下保持了强大的说话人相似度(SIM),其离线实时因子(RTF) 远低于基线模型(0.014),证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 🏗️ 模型架构 X-VC的整体流程是一个端到端的编解码器空间转换框架,其核心思想是将波形转换问���转化为在预训练编解码器潜在空间中的表征变换问题。 完整流程: 输入:源语音波形 x_src,目标参考语音波形 x_tgt。 编码:使用冻结的SAC编解码器前端(包括语义编码器、声学编码器、对应的VQ层和适配器)将源语音片段 x_seg_src 编码为统一的编解码器潜在表征序列 z(维度1024)。这个 z 已经融合了语义和声学信息。 条件提取: 帧级声学条件 c:从目标参考语音中移除与源片段对应的部分后,提取128维的梅尔频谱图。 句级说话人条件 g:使用预训练的ERes2Net说话人编码器,从同样的目标参考语音中提取192维的全局说话人嵌入。 核心转换:双条件声学转换器接收 z、c、g 作为输入,输出转换后的潜在表征 z_hat。 解码:使用冻结的SAC编解码器解码器将 z_hat 重建为目标说话人的语音波形 x_hat。 核心组件:双条件声学转换器 ...

2026-04-19