📄 JaiTTS: A Thai Voice Cloning Model

#语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型

🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution)
  • 通讯作者:未明确说明(论文提供了团队邮箱 jts.ai.team@gmail.com
  • 作者列表:
    • Jullajak Karnjanaekarin (Jasmine Technology Solution)
    • Pontakorn Trakuekul (Jasmine Technology Solution)
    • Narongkorn Panitsrisit (Jasmine Technology Solution)
    • Sumana Sumanakul (Jasmine Technology Solution)
    • Vichayuth Nitayasomboon (Jasmine Technology Solution)
    • Nithid Guntasin (Sirindhorn International Institute of Technology, 实习于Jasmine Technology Solution)
    • Thanavin Denkavin (Sirindhorn International Institute of Technology)
    • Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics)

💡 毒舌点评

亮点:论文在泰语语音克隆上实现了SOTA,CER甚至优于人类基准,并在400次盲测中以70%胜率击败商业巨头,展示了强大的工程落地和数据调优能力。短板:模型核心架构源自VoxCPM,原创性有限;更关键的是“代码、模型、数据”三无状态,使得其优异的实验结果暂时停留在“不可复现的宣称”阶段,大大削弱了学术贡献的可验证性和社区价值。

🔗 开源详情

  • 代码:论文中未提及代码链接
  • 模型权重:论文中未提及
  • 数据集:论文中未提及公开数据集链接。训练数据为约10,000小时的内部泰语语音语料库,评估集使用了Thai Common Voice测试集和YouTube数据(未提供开源链接)。
  • Demo:论文中未提及
  • 复现材料:论文中未提及具体的训练配置、检查点或附录等复现材料链接。
  • 论文中引用的开源项目:论文中未提及具体项目链接。论文引用了以下项目作为基线或相关工作:Qwen3-TTS(Hu et al., 2026)、ThonburianTTS(Aung et al., 2025)、LLaSA(Ye et al., 2025b)、X-codec2、Typhoon-Whisper-Large-v3(Sirichotedumrong et al., 2026)、DNSMOS Pro(Cumlin et al., 2024),但均未在文中提供对应的GitHub或HuggingFace等链接。

补充信息

  • [实验结果] 补充:论文在讨论长时任务结果时,明确解释了ThonburianTTS在长时任务中“可能因为训练数据以短片段为主,导致无法生成合理的长时语音”,因此被排除在分析之外。这为基线模型在长时任务上的缺失提供了直接原因。
  • [实验结果] 补充:论文指出,在短时任务上JaiTTS-v1.0的CER(1.94%)优于人类基准(1.98%)的原因是“合成音频往往比自然人声更干净”。这为“超越人类基准”这一结论提供了合理的解释。
  • [细节详述] 补充:论文明确说明,为确保公平对比,对不同基线模型的推理参数进行了针对性设置:ThonburianTTS设置cfg_strength=2.5nfe_step=32,而JaiTTS-v1.0设置cfg_value=2.5inference_timesteps=10。这体现了实验设计的严谨性。
  • [细节详述] 补充:论文在“3.3 评估指标”中明确了CER计算所用的ASR文本归一化流程:将阿拉伯数字转换为泰语数词、将英文音译词转回英文原词、并展开泰语重复标记(ๆ)。这详细说明了如何在公平条件下计算客观指标。
  • [创新点] 补充:论文在介绍FSQ层时明确指出,其设计动机是“作为一种隐式正则化,而非作为目标词汇表”,这深化了对FSQ在架构中作用的理解。
  • [核心摘要] 补充:论文在结论部分自我指出了一个明确的局限性:“未分析模型在泰语之外语言上的泛化能力”。这属于对自身工作边界的坦诚声明。
  • [实验结果] 补充:人类评估所用的30个评估文本经过了精心设计,包含了泰英混杂+数字、仅混杂无数字、仅数字无混杂、纯泰语四种类型,以全面、均衡地测试模型在不同现实场景下的合成能力。
  • [模型架构] 补充:论文提到“使用因果音频VAE”解码潜向量为波形,这是一个独立于核心生成流程的组件,但分析中未明确指出其“独立训练”的特性。

📌 核心摘要

  1. 问题:现有TTS模型(无论是开源多语言模型如Qwen3-TTS,还是泰国专用模型如ThonburianTTS)在泰语语音克隆任务上存在发音/韵律错误、长文本稳定性差、且严重依赖复杂的文本预处理(如数字和泰英混杂文本归一化)等问题。
  2. 方法核心:基于VoxCPM(一种无离散语音分词器的自回归TTS架构)进行持续训练,构建了JaiTTS-v1.0。其核心是直接处理未归一化的原始文本,通过分层语义-声学建模(TSLM规划语义韵律 → FSQ半离散量化 → RALM补充声学细节 → LocDiT扩散解码)生成连续语音潜向量。
  3. 新在何处:主要新在针对泰语场景的优化:1) 在约1万小时泰语中心语料上训练,专门适应泰语语音和代码切换;2) 实现了无需显式文本归一化即可合成包含数字和英泰混杂的原始文本,简化了部署流程。
  4. 主要结果:在短时语音任务上,CER为1.94%,低于人类基准的1.98%;长时语音CER为2.55%,与人类基准2.47%相当,均优于对比基线。实时率(RTF)为0.1136,比Qwen3-TTS快约13倍。人类评估中,在400次两两对比中赢得283次,胜率约70.75%,击败了ElevenLabs v3和MiniMax speech-2.8-hd等商业系统。
  5. 实际意义:为泰语用户提供了一个高效(低RTF)、高质量(高自然度和准确度)、部署简便(无需复杂文本处理)的语音克隆解决方案,具有直接的商业应用潜力。
  6. 局限性:主要局限是未开源任何代码、模型或数据,严重限制了学术复现和社区发展。此外,其架构本身并非原创,创新主要集中在工程化应用和特定语言优化上;论文未深入分析在泰语之外的泛化能力。

🏗️ 模型架构

JaiTTS-v1.0的整体架构如图1所示,是一个分层的自回归生成系统,直接从文本和参考音频生成连续语音潜向量。

JaiTTS-v1.0 架构 (VoxCPM) 图1:JaiTTS-v1.0的骨干架构VoxCPM。流程为:文本与参考音频嵌入输入TSLM规划语义韵律;FSQ层将其压缩为半离散骨架;RALM基于骨架和历史声学嵌入补充残差声学细节;最终LocDiT解码出下一个连续语音潜向量。

完整输入输出流程:

  • 输入:1) 目标文本(可包含未归一化的数字和泰英混杂);2) 一段参考音频(用于克隆说话人声音)。
  • 输出:生成的语音波形。内部生成的是连续语音潜向量序列,最终由一个独立的因果音频VAE解码为波形。

主要组件及功能:

  1. 文本-语义语言模型 (TSLM):

    • 功能:核心规划模块。接收BPE分词后的文本 T 和来自Local Audio Encoder的历史声学嵌入 E_{<i},输出连续的语义-韵律表示 h_i^{TSLM}
    • 结构:基于MiniCPM-4的decoder-only Transformer初始化。它利用预训练LLM的语言理解能力,共同捕捉“说什么”(语义)和“怎么说”(韵律)。
    • 设计动机:将语义规划与声学生成解耦,避免任务纠缠。
  2. 有限标量量化 (FSQ):

    • 功能:将TSLM输出的连续表示 h_i^{TSLM} 投影到一个结构化的离散网格,得到半离散骨架 h_i^{FSQ}。这是一个“瓶颈层”。
    • 原理:对每个维度独立进行标量量化:h_{i,j}^{FSQ} = Δ * clip(round(h_{i,j}^{TSLM} / Δ), -L, L),其中 Δ 是量化步长,L 定义了离散范围。通过直通估计器(STE)保持梯度可传播。
    • 设计动机:为后续模块提供一个稳定、结构化的规划信号,同时作为隐式的正则化。
  3. 残差声学语言模型 (RALM):

    • 功能:声学细化模块。负责增强说话人相似度和捕捉FSQ无法表示的声学细节。
    • 输入:TSLM的文本侧隐藏状态 H_{text}^{TSLM},历史FSQ骨架 H_{<i}^{FSQ},以及历史声学嵌入 E_{<i}
    • 输出:残差表示 h_i^{res},它补充了骨架中缺失的说话人特征。
    • 设计动机:明确分离语义规划(TSLM)和声学渲染(RALM),后者专注于提升自然度和说话人保真度。
  4. 局部扩散Transformer (LocDiT):

    • 功能:解码器。通过流匹配(一种扩散模型)去噪过程,生成下一个连续语音潜向量 z_i
    • 条件输入:最终条件信号 h_i^{final} = h_i^{FSQ} + h_i^{res},上一个潜向量 z_{i-1},以及扩散时间步 t
    • 结构:双向Transformer。
    • 设计动机:将每个潜向量的生成视为一个“局部外绘”任务,利用前一个潜向量来保证跨片段的连续性。
  5. 停止预测器:

    • 功能:轻量级头,基于FSQ骨架 h_i^{FSQ} 预测当前是否为序列的最后一个token(输出二分类logit)。

组件间数据流: 文本 T + 参考音频 → TSLM → h_i^{TSLM} → FSQ → h_i^{FSQ} (骨架) → RALM (结合历史信息) → h_i^{res} (残差) → 与 h_i^{FSQ} 相加 → h_i^{final} → LocDiT (结合 z_{i-1} 和时间步) → 下一个潜向量 z_i。同时,h_i^{FSQ} 输入停止预测器。

💡 核心创新点

  1. 无需文本归一化的泰语-英语混杂合成:

    • 局限:传统泰语TTS管道需要复杂的文本归一化流程处理数字和代码切换。
    • 创新:JaiTTS-v1.0直接处理包含阿拉伯数字和英文单词的原始泰语文本,无需前置转换。
    • 作用:通过在泰语语料上的针对性训练,模型隐式学会了处理这些输入,简化了部署管线。实验证明其在CER和人类评估上均表现优异。
  2. 针对泰语的大规模持续训练与优化:

    • 局限:现有开源多语言模型(如Qwen3-TTS)中泰语数据占比小,导致发音韵律问题;泰国专用模型(如ThonburianTTS)受限于训练数据(如GigaSpeech2,短句为主),长时合成稳定性差。
    • 创新:在约1万小时的泰语中心语料(涵盖多种风格和领域)上,对VoxCPM进行持续训练,构建JaiTTS-v1.0。
    • 收益:在泰语短时任务CER达到1.94%(超越人类基准),长时任务表现稳定,且RTF极低(0.1136),实现了质量与效率的统一。
  3. 分层语义-声学建模(基于VoxCPM):

    • 局限:许多自回归TTS模型依赖离散语音分词器(如X-codec),其码本可能无法充分建模泰语的声调和辅音丛等特性。
    • 创新:采用VoxCPM的无分词器架构,通过TSLM(规划)、FSQ(量化瓶颈)、RALM(声学细化)、LocDiT(扩散解码)的层次化设计,直接在连续潜空间操作。
    • 收益:避免了离散分词带来的信息损失,为模型提供了更精细的声学控制能力,这可能有助于捕捉泰语的复杂音系特征。
  4. 全面的评估体系与SOTA结果:

    • 创新:建立了包含短时(1-15秒)和长时(16-30秒)语音生成的评估基准,并进行了大规模人类偏好测试(400次对比)。
    • 收益:客观上CER达到SOTA,主观上在与ElevenLabs、MiniMax等顶级商业系统的对比中以显著优势胜出(胜率约70%),提供了强有力的效果证明。

🔬 细节详述

  • 训练数据:

    • 数据集:未使用标准公开数据集名称,而是描述为“约10,000小时泰语中心语音语料库”。
    • 来源与规模:由Jasmine Technology Solution内部构建。语料结合了通用领域语音(如播客)和四个垂直领域(金融、医疗、教育、法律)。音频来源包括录音棚高质量录音和众包语音,以增加自然度和多样性。
    • 预处理:所有音频通过自动语音识别(ASR)管线配对转录文本,并经过多步后处理和验证以确保转录准确。
    • 评估集构建:短时集:从泰语Common Voice测试集过滤出DNSMOS Pro > 3.9的高质量音频,随机抽样1000条,去噪去静音。长时集:从YouTube人工收集231条长语音,手动校对转录文本。文本策略:将泰语音译词转为英文原词,将泰语数词转为阿拉伯数字,以测试直接合成能力。
  • 损失函数:

    1. 流匹配损失 (L_FM):用于训练LocDiT。它使模型预测的速度场 v_θ 逼近时间插值路径 α_t z_i^0 + σ_t ε 的时间导数。这是一个回归损失,确保潜向量生成的准确性。
    2. 停止预测损失 (L_Stop):二元交叉熵损失,训练停止预测器 s_θ 正确预测序列结束位置。
    3. 总损失:L = L_FM + λ * L_Stopλ 未说明。损失通过STE反向传播至所有模块和FSQ层,实现端到端联合优化。
  • 训练策略:

    • 论文明确指出是“持续训练”,但未说明学习率、warmup策略、batch size、优化器(如AdamW)、总训练步数/轮数、调度策略等具体超参数。
    • 提到在训练期间以0.1的概率随机丢弃LocDiT的语言模型条件,以启用推理时的无分类器指导。
  • 关键超参数:

    • 模型:基于MiniCPM-4(TSLM)和VoxCPM(整体框架)。TSLM和RALM的具体Transformer配置(如层数、隐藏维度)未说明。
    • FSQ:量化步长 Δ 和离散范围 L 未说明。
    • 推理:对于JaiTTS-v1.0,设置cfg_value(指导强度)为2.5,inference_timesteps(扩散时间步数)为10。
  • 训练硬件:未说明 GPU/TPU型号、数量及训练时长。

  • 推理细节:

    • 解码策略:自回归地逐个生成语音潜向量,每生成一个,使用LocDiT进行扩散去噪(时间步数 inference_timesteps=10)。
    • 使用无分类器指导(CFG),指导强度 cfg_value=2.5
    • 停止预测器预测结束信号。
  • 正则化技巧:FSQ层本身可视为一种隐式正则化。此外,训练时对LocDiT的条件进行随机丢弃(概率0.1)也是一种正则化手段,用于增强无分类器指导的效果。

📊 实验结果

论文提供了两组主要的客观评估结果表。

表1:短时和长时泰语语音克隆基准的客观评估结果

模型短时 (1-15s)长时 (16-30s)
CER(%) ↓SIM ↑CER(%) ↓SIM ↑
Human (Ground Truth)1.980.612.470.83
Qwen3-TTS-0.6B3.140.626.100.79
Qwen3-TTS-1.7B2.560.623.640.78
ThonburianTTS6.260.48
JaiTTS-v1.01.940.622.550.76
  • 关键结论:JaiTTS-v1.0在短时CER上以1.94%取得了最佳成绩,甚至略优于人类基准(1.98%)。在长时任务中,其CER(2.55%)与人类基准(2.47%)非常接近,且远优于Qwen3-TTS基线。说话人相似度(SIM)具有竞争力。

表2:跨模型实时率比较

模型RTF ↓
Autoregressive (AR)
Qwen3-TTS-0.6B1.5092
Qwen3-TTS-1.7B1.5409
JaiTTS-v1.00.1136
Non-Autoregressive (NAR)
ThonburianTTS0.1150
  • 关键结论:JaiTTS-v1.0的RTF为0.1136,意味着其生成速度约为实时速度的9倍,比两个Qwen3-TTS模型快约13倍,并且是对比模型中最快的。这使其非常适合实时应用。

图2:JaiTTS-v1.0与商业旗舰模型的头对头人类判断结果

  • 图2以条形图形式展示了人类评估结果。
    • JaiTTS-v1.0 vs eleven_v3:JaiTTS-v1.0赢161次,平19次,输20次。
    • JaiTTS-v1.0 vs speech-2.8-hd:JaiTTS-v1.0赢122次,平40次,输38次。
  • 关键结论:在共计400次盲测对比中,JaiTTS-v1.0赢得了283次(70.75%),平了58次,仅输58次。这表明在泰语语音合成的自然度、可懂度和说话人相似度方面,人类评审者有强烈偏好。

⚖️ 评分理由

  • 学术质量:6.5/7

    • 论文在选定的特定任务(泰语语音克隆)上进行了扎实的工程优化和系统性的实验验证。技术路线清晰,从架构改进(应用VoxCPM)到数据准备(构建泰语语料库),再到全面的评估(客观+主观),形成了一个完整的工作。其CER超越人类基准和人类评估的高胜率是强有力的证据。扣分点主要在于架构原创性有限(核心是VoxCPM的持续训练)和部分关键训练细节未公开。
  • 选题价值:1.5/2

    • 选题具有明确的应用导向和现实意义。泰语作为一个中低资源语言,其高质量TTS系统的开发对本地化科技应用至关重要。论文解决的“直接处理未归一化文本”是一个实际痛点。0.5分的扣减是因为该工作的广泛影响力可能受限于泰语这一特定语言受众,对于更一般的语音合成研究社区,参考价值相对聚焦。
  • 开源与复现加成:0.0/1

    • 这是论文最大的短板。未提供代码、模型权重、数据集,也未提及开源计划。训练超参数、模型配置等大量细节缺失。尽管论文中引用了VoxCPM等开源工作,但其自身的可复现性极低,严重限制了学术界和工业界的验证与跟进,因此此项得分为0。


← 返回 2026-05-02 论文速递