📄 VoxCPM2 Technical Report

#语音合成 #语音克隆 #多语言

9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5

🔥 9.5/10 | 前50% | #语音合成 | #语音克隆 | #多语言 | arxiv

👥 作者与机构

核心贡献者:Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Jiancheng Gui, Jiaheng Wu, Ziyang Wang, Xudong Shen, Runchuan Ye, Zhisheng Zhang, Jiuyang Zhou, Bingsong Bai, Weiyue Sun, Mengyuan Deng, Qundong Shi, Zhiyong Wu, Zhiyuan Liu 其他贡献者:Biyuan Lin, Caixian Chen, Chao Jia, Chenzhe Jing, Daixi Zeng, Jiayi Zhang, Jie Zhou, Jilong Ma, Jie Sun, Ling Zheng, Minmin Fan, Siyuan Huang, Shuo Wang, Susu Bai, Wenxi Yang, YingJiao Wang, Yitong Wang, Zhen Luo, Zhizheng Yang, Zhong Zhuang 机构:清华大学深圳国际研究生院人机语音交互实验室(THUHCSI),清华大学自然语言处理实验室(THUNLP),ModelBest

💡 毒舌点评

这篇报告堪称“技术报告的典范”——详尽、系统、野心勃勃。VoxCPM2像一个试图在语音生成领域完成“统一场论”的模型,把多语言、可控、克隆、高保真所有热门赛道打包塞进一个2B参数的骨架里。优点是架构设计脉络清晰,从AudioVAE V2到统一序列组织,每一步都有章法。实验也铺得很开,公开榜单刷了个遍,内部数据集还搞了30种语言。但问题也在此:它更像一份精心策划的“产品发布白皮书”,而非一篇推动边界的“科研论文”。创新点更多是系统性的整合与规模化的工程胜利,而非某个组件有颠覆性突破。多语言效果在低资源语言上仍然参差不齐,作者自己都承认了,但报告里用“数据量少”一笔带过,缺乏更深层的分析。可控生成部分,虽然InstructTTSEval得分亮眼,但更抽象的RP任务分数仍落后于Gemini-TTS-Pro,这暗示了基于文本指令的细粒度控制仍是开放问题。最“鸡贼”的是,报告对比较对象的选择非常有针对性,在强调自身优势的榜单上(如MiniMax-MLS-Test的SIM)列出众多对手,但在一些全面落后的榜单上(如CV3-Eval的WER)却轻描淡写。总而言之,这是一份优秀的工程报告,证明了连续潜变量范式的可扩展性和实用性,但作为一篇顶会论文,其“科学贡献”的纯度值得商榷。

📌 核心摘要

VoxCPM2是VoxCPM系列的规模化升级,将分层连续潜变量(continuous-latent)框架扩展为一个约20亿参数的多语言、可控语音生成基础模型。其核心贡献在于:1)通过非对称AudioVAE V2实现16kHz编码、48kHz重建,兼顾高效编码与高保真输出;2)通过统一序列组织,将基础TTS、语音设计、参考克隆、可控克隆、续写克隆五种模式整合至单一骨干网络,无需任务专属模块;3)通过骨干网络优化(如拼接投影、多令牌条件)和三阶段训练策略,系统性提升了模型能力。模型在多个公开基准上取得有竞争力或最先进的性能,特别是在说话人相似度(SIM)和可控生成(I-MOS)方面表现突出,并展示了在消费级GPU上高效推理的能力。

🔗 开源详情

🏗️ 方法概述和架构

VoxCPM2的核心架构是分层扩散-自回归混合模型,延续了VoxCPM的设计哲学,即在连续潜变量空间内,通过内部层级分解来协调语义规划与声学渲染,避免依赖外部离散语音分词器。整个系统可以分解为以下关键组件和数据流:

  1. 音频变分自编码器(AudioVAE V2): 这是整个系统的输入/输出接口。它是一个非对称的VAE。编码器以16kHz波形作为输入,经过下采样率分别为[2, 5, 8, 8]的步进因果卷积神经网络(CNN),实现640倍的时间压缩,输出64维、帧率为25Hz的连续潜变量 \(z\)。选择16kHz输入是为了与VoxCPM早期版本的大规模训练数据兼容,并避免序列过长。解码器则负责将潜变量 \(z\) 重建为48kHz的高质量波形,采用更深更宽的因果CNN堆栈,上采样率为[8, 6, 5, 2, 2, 2]。这种非对称设计使得主干网络可以在低帧率(25Hz)下处理紧凑的潜变量,同时最终输出高达48kHz的波形,实现“隐式超分辨率”。解码器还接受可选的目标采样率条件,以支持不同采样率的输出。

  2. 骨干网络(Backbone): 骨干网络以潜变量序列 \(z\)(每P=4帧组合成一个“patch”,对应160ms音频,帧率降至6.25Hz)和文本序列 \(T\) 作为输入,自回归地生成下一个patch的分布。它由四个核心子模块构成:

  • 局部编码器(LocEnc): 一个因果Transformer,负责聚合当前patch及其之前的声学历史,输出patch级别的声学嵌入 \(E_{<i}\)
  • 文本语义语言模型(TSLM): 基于MiniCPM-4(1B参数)的Transformer。它接收文本令牌 \(T\) 和来自LocEnc的声学历史 \(E_{<i}\),生成高维隐状态 \(H^{TSLM}\)。其主要任务是捕获高级的语义和韵律结构。
  • 有限标量量化(FSQ)瓶颈: 将TSLM的音频侧隐状态进行逐维度标量量化,输出一个半离散的语义骨架 \(h^{FSQ}_i\)。FSQ将连续向量量化到有限的离散级别(每维度9级),但整个过程可微。这个瓶颈层是VoxCPM家族的关键设计,它将语义规划稳定在一个紧凑的骨架上。
  • 残差声学语言模型(RALM): 一个因果Transformer(8层,隐层2048维)。它接收TSLM的文本侧隐状态 \(H^{TSLM}_{text}\)、FSQ量化的语义骨架历史 \(H^{FSQ}_{≤i}\) 以及LocEnc的声学嵌入 \(E_{<i}\)。RALM的任务是恢复由FSQ量化的骨架 \(h^{FSQ}_i\) 所丢失的精细声学细节,输出残差表示 \(h^{residual}_i\)。值得注意的是,VoxCPM2在此处移除了位置编码(NoPE),以增强对长音频的泛化能力。
  1. 局部扩散Transformer(LocDiT): 这是一个非自回归的扩散模型,负责最终生成连续潜变量patch \(z_i\)。其关键创新在于条件输入方式。它接收来自TSLM/RALM的三个独立条件令牌: \(h^{FSQ}_i\) 的投影 \(μ_{sem}\)\(h^{residual}_i\) 的投影 \(μ_{res}\)、扩散时间步 \(t\) 的嵌入 \(μ_t\),连同前一个干净patch \(z_{i-1}\) 和当前噪声patch \(\tilde{z}_i\) 的所有帧,形成一个序列。LocDiT对这个序列进行全注意力计算,并在噪声patch的位置上预测速度场,从而逐步去噪得到 \(z_i\)。这种多令牌条件输入避免了信息在早期被求和操作压缩,提供了更高带宽的语义-声学条件信号。

  2. 统一序列组织: VoxCPM2通过精心设计输入序列的排列组合,支持五种生成模式,而无需改变模型结构。输入序列由三种基本“构建块”组成:文本(可包含语音/风格描述)、参考音频(用<REF_START>, <REF_END>界定)、目标音频。不同模式的区别仅在于这些构建块的排列顺序。例如:

  • 可控克隆:<参考音频> | <(风格描述) 文本><目标音频>
  • 基础TTS:<文本><目标音频> 训练时,只有目标音频段参与损失计算。
  1. 训练策略: 采用三阶段渐进式课程学习:
  • 第一阶段:多语言TTS预训练,使用大规模<文本,音频>对,建立跨语言发音和韵律基础。
  • 第二阶段:联合TTS与可控TTS预训练,在保持大量普通TTS数据的同时,逐步引入带自然语言描述的语音设计数据和<参考音频,文本,目标音频>三元组,训练克隆能力。
  • 第三阶段:高质量退火SFT,使用精选的高质量、高表现力数据进行微调,重点提升可控生成的精度。 整个训练过程使用AdamW优化器、余弦学习率衰减和线性预热,并在训练中随机丢弃LocDiT的LM侧条件(概率10%)以支持推理时的分类器引导(CFG)。

数据流总结:文本 \(T\) 与潜变量序列 \(z\) 并行输入。TSLM处理文本和声学历史,输出经FSQ量化为 \(h^{FSQ}\)。RALM基于文本语义和量化后的声学历史,恢复残差 \(h^{residual}\)。LocDiT以 \(h^{FSQ}\), \(h^{residual}\), 时间步 \(t\) 和前一patch为条件,通过扩散过程生成当前patch的潜变量 \(z_i\)。最后,AudioVAE V2解码器将整个潜变量序列 \(z\) 解码为48kHz波形。

图1

💡 核心创新点

  1. 非对称音频变分自编码器(AudioVAE V2):创新性地采用16kHz编码、48kHz重建的非对称设计,在保持骨干网络处理低帧率紧凑潜变量的高效性同时,实现了高采样率的高质量音频输出。
  2. 统一序列组织框架:通过定义和排列三种输入构建块(文本、参考音频、目标音频),将基础TTS、语音设计、参考克隆、可控克隆、续写克隆五种模式统一到单一的序列建模框架中,实现了“一个模型,多种功能”。
  3. 骨干网络条件输入优化:将LocDiT的条件从单个融合向量改为三个独立的投影令牌(语义、残差、时间步),避免了早期信息坍塌,为扩散解码器提供了更高带宽的条件信息。
  4. 可学习拼接投影融合:在RALM的输入端,用可学习的拼接投影(\(W_{fuse}[h^{FSQ}_i \parallel E_i]\))取代了VoxCPM中的简单元素加法,保留了更丰富的语义和声学信息。
  5. 规模化与课程学习:将模型规模系统性地扩展到2B参数、200万小时数据、30+语言,并设计了三阶段渐进式训练策略,确保在集成众多新能力时不损害基础合成质量。

📊 实验结果

VoxCPM2在多个维度上进行了全面评估。

  1. 零样本语音克隆(Seed-TTS-Eval)
    模型参数量开源test-ENtest-ZHtest-ZH-Hard

| 闭源模型 | | | | | | | | | | MegaTTS3 | 0.5B | ✗ | 2.79 | 77.1 | 1.52 | 79.0 | – | – | | DiTAR | 0.6B | ✗ | 1.69 | 73.5 | 1.02 | 75.3 | – | – | | CosyVoice 3 | 1.5B | ✗ | 2.22 | 72.0 | 1.12 | 78.1 | 5.83 | 75.8 | | Seed-TTS | – | ✗ | 2.25 | 76.2 | 1.12 | 79.6 | 7.59 | 77.6 | | MiniMax-Speech | – | ✗ | 1.65 | 69.2 | 0.83 | 78.3 | – | – | | CosyVoice3.5 | – | ✗ | 1.57 | 73.8 | 0.87 | 79.7 | 5.71 | 78.6 | | 开源模型 | | | | | | | | | | F5-TTS | 0.3B | ✓ | 2.00 | 67.0 | 1.53 | 76.0 | 8.67 | 71.3 | | MaskGCT | 1B | ✓ | 2.62 | 71.7 | 2.27 | 77.4 | – | – | | CosyVoice | 0.3B | ✓ | 4.29 | 60.9 | 3.63 | 72.3 | 11.75 | 70.9 | | CosyVoice 2 | 0.5B | ✓ | 3.09 | 65.9 | 1.38 | 75.7 | 6.83 | 72.4 | | CosyVoice 3 | 0.5B | ✓ | 2.02 | 71.8 | 1.16 | 78.0 | 6.08 | 75.8 | | Spark-TTS | 0.5B | ✓ | 3.14 | 57.3 | 1.54 | 66.0 | – | – | | FireRedTTS | 0.5B | ✓ | 3.82 | 46.0 | 1.51 | 63.5 | 17.45 | 62.1 | | FireRedTTS-2 | 1.5B | ✓ | 1.95 | 66.5 | 1.14 | 73.6 | – | – | | Qwen2.5-Omni | 7B | ✓ | 2.72 | 63.2 | 1.70 | 75.2 | 7.97 | 74.7 | | Qwen3-Omni | 30B-A3B | ✓ | 1.39 | – | 1.07 | – | – | – | | OpenAudio-s1-mini | 0.5B | ✓ | 1.94 | 55.0 | 1.18 | 68.5 | 23.37 | 64.3 | | IndexTTS2 | 1.5B | ✓ | 2.23 | 70.6 | 1.03 | 76.5 | 7.12 | 75.5 | | VibeVoice | 1.5B | ✓ | 3.04 | 68.9 | 1.16 | 74.4 | – | – | | HiggsAudio-v2 | 3B | ✓ | 2.44 | 67.7 | 1.50 | 74.0 | 55.07 | 65.6 | | ZipVoice | 0.1B | ✓ | 1.64 | 66.8 | 1.40 | 75.1 | – | – | | MOSS-TTS | 8B | ✓ | 1.85 | 73.4 | 1.20 | 78.8 | – | – | | Qwen3-TTS | 1.7B | ✓ | 1.23 | 71.7 | 1.22 | 77.0 | 6.76 | 74.8 | | Fish Audio S2 | 4B | ✓ | 0.99 | – | 0.54 | – | 5.99 | – | | OmniVoice | 0.8B | ✓ | 1.60 | 74.1 | 0.84 | 77.7 | – | – | | LongCat-Audio-DiT | 3.5B | ✓ | 1.50 | 78.6 | 1.09 | 81.8 | 6.04 | 79.7 | | VoxCPM | 0.6B | ✓ | 1.85 | 72.9 | 0.93 | 77.2 | 8.87 | 73.0 | | VoxCPM1.5 | 0.8B | ✓ | 2.12 | 71.4 | 1.18 | 77.0 | 7.74 | 73.1 | | VoxCPM2 | 2B | ✓ | 1.84 | 75.3 | 0.97 | 79.5 | 8.13 | 75.3 |

VoxCPM2在开源模型中达到了有竞争力的水平,尤其在说话人相似度(SIM)上表现优异。报告还对比了不同推理配方的效果,其中“参考音频+续写”配方在整体性能上最优。

  1. 多语言能力(CV3-Eval, MiniMax-MLS-Test) 在CV3-Eval(9语言)上,VoxCPM2展现了稳定的性能,WER在各语言上表现稳健。在MiniMax-MLS-Test(24语言)上,VoxCPM2在22种语言的说话人相似度(SIM)指标上取得了最佳成绩,展现了强大的跨语言说话人保持能力。在可懂度方面,模型在大多数语言上表现良好,但在阿拉伯语和印地语上WER较高,报告将此部分归因于训练数据量有限以及评估工具(Whisper)对这些语言的识别不准。

  2. 可控生成(InstructTTSEval)

    模型InstructTTSEval-ZHInstructTTSEval-EN
    APS↑DSD↑RP↑APS↑DSD↑RP↑
    Hume83.075.354.3
    GPT-4o-mini-TTS54.952.346.076.474.354.8
    Gemini-TTS-Pro89.090.175.587.686.067.2
    PromptTTS64.347.231.4
    PromptStyle57.446.430.9
    Parler-TTS-large60.045.931.2
    VoxInstruct47.552.342.654.957.039.3
    VoiceSculptor75.764.761.5
    Mimo-Audio-7B-Instruct75.774.361.580.677.659.5
    Qwen3-TTS-VD85.281.165.182.982.468.4
    MOSS-VoiceGenerator78.080.074.068.282.068.7
    VoxCPM285.271.560.884.283.271.4

在英语子集上,VoxCPM2取得了最佳的总体得分(APS/DSD/RP)。在中文子集上,APS得分与最佳持平,但在更抽象的DSD和RP任务上仍有差距。

  1. 重建质量(AudioVAE V2)
    VAE模型输入/输出采样率VCTK (48kHz)Song Describer (44kHz)
    MelD-48k↓MelD-16k↓STOI-16k↑PESQ-16k↑MelD-48k↓
    VoxCPM16k/16k1.7870.8010.9113.9402.371
    VoxCPM1.544k/44k1.1390.9260.8363.1481.267
    VoxCPM216k/48k1.3350.8130.9073.9061.334

AudioVAE V2在更具挑战性的超分辨率设置下,提供了具有竞争力的重建质量。

  1. 推理效率与主观评估 报告展示了VoxCPM2在单卡RTX 4090上的推理速度(RTF 0.13-0.30)和显存占用(~8GB)。主观听力测试(N-MOS, S-MOS, I-MOS)进一步验证了模型在自然度、说话人相似度和指令遵循度上的竞争力,其I-MOS得分最高。

⚖️ 评分理由

  • 创新性 (1.5/2):提出了系统性的架构改进(非对称VAE、统一序列组织、多令牌条件)和规模化方案。创新点扎实,但更多是整合与优化,缺乏某个组件的根本性突破。与VoxCPM的差异化足够清晰。
  • 技术严谨性 (1.3/1.5):方法描述清晰,公式(如Eq. 1, 2)定义明确。对关键设计决策(如非对称VAE动机、FSQ作用、RALM移除RoPE)有合理解释。但部分设计选择(如FSQ级别9的确定、拼接投影的具体维度)未充分论证。
  • 实验充分性 (1.3/1.5):实验覆盖了零样本克隆、多语言、可控生成、重建、效率等多个维度,使用了多个主流公开基准,并与大量基线(包括闭源系统)进行了比较。还进行了消融研究(不同推理配方)和主观测试。不足在于:1)对部分失败案例(如阿、印低资源语言)的分析较浅;2)缺少对统一序列组织内部各模式效果差异的系统性分析。
  • 清晰度 (1.4/1.5):报告结构合理,逻辑连贯。方法章节(Section 3)和实验章节(Section 4)组织有序,关键概念(如连续潜变量、分层建模、统一序列)贯穿始终。图表和表格辅助理解较好。部分细节(如三阶段训练的具体数据混合比例)未完全公开。
  • 影响力 (1.3/1.5):论文在语音合成领域有明确贡献,提供了一个强大的开源基础模型,对推动多语言、可控TTS的研究有积极意义。其“统一模型”思路和高效推理方案具有实用价值。然而,影响主要局限于TTS任务本身,跨领域通用性有限。
  • 开源 (1.2/1.5):模型权重、微调代码和推理工具在Apache 2.0许可下公开,具有高实践价值。但报告未直接给出代码/权重的仓库链接(如GitHub),也未提及训练数据是否开源,降低了立即复用的便利性。开源详情部分有准确链接。
  • 可复现性 (1.1/1.5):模型和代码的开源为复现提供了基础。报告详细描述了训练策略、数据构建流程(如表情数据筛选、克隆参考挖掘、内容解耦生成)和评估设置。但完整的训练配置(超参数、数据混���细节)未公开,使得从头训练难以复现。
  • 工程/实践价值 (1.4/1.5):2B模型可在消费级GPU上高效推理,RTF和显存指标优秀。支持流式和批量服务,兼容现有vLLM生态。功能集成度高(多语言+可控+克隆)。展示了从原型到实用系统的完整工程路径。对工业界和开发者社区有很强的吸引力。

🚨 局限与问题

  1. 性能差异与数据偏差:报告坦承在低资源语言(如阿拉伯语、印地语)上可懂度不佳,主要归因于数据量。但这暴露了模型严重依赖大规模高质量数据的潜在问题。在数据分布不均的情况下,模型能力可能呈现显著的语言间差异,这对于追求“公平”多语言能力的目标是挑战。
  2. 可控生成的抽象指令遵循瓶颈:在InstructTTSEval的RP(角色扮演)任务上,VoxCPM2(尤其中文)得分落后于Gemini-TTS-Pro等闭源系统。这表明,将高度抽象、需要丰富世界知识的自然语言指令映射到具体的语音声学特征,仍然是基于文本前缀的控制范式的瓶颈。模型可能更擅长参数化(APS)或描述性(DSD)指令。
  3. 评估的局限性:部分多语言评估依赖于ASR模型(如Whisper)的转录,而ASR本身在不同语言上的性能差异会混淆对TTS系统真实可懂度的判断。报告在内部测试集中使用Gemini API部分缓解了此问题,但公开基准的评估仍受此影响。
  4. 比较的选择性:报告在展示优势指标(如MiniMax-MLS-Test上的SIM)时列出了广泛比较,但在CV3-Eval的WER上,VoxCPM2落后于Fish Audio S2等模型,报告对此的讨论相对简略。这可能给读者造成选择性呈现的印象。
  5. 方法深度与理论贡献:作为技术报告,其主要贡献在于系统集成和规模化验证。各个组件(如拼接投影、多令牌条件)更多是经验性改进,缺乏更深层次的理论分析或洞察(例如,为何这种条件方式优于其他融合策略)。
  6. 歌唱生成能力尚不成熟:报告提到了初步的歌唱生成能力,但明确指出“质量仍有很大提升空间”。这可以看作是未来方向,但也将其列为一个当前的局限。

← 返回 2026-06-08 语音/音乐/音频论文速递