📄 Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis
#语音合成 #语音生成 #数据增强
7.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5
✅ 7.3/10 | 前50% | #语音合成 | #数据增强 | #语音生成 | arxiv
👥 作者与机构
作者:Lianbo Liu, Shiao Zhu, Kai Washizaki, Reo Yoneyama, Haesung Jeon, Mengjie Zhao, Yusuke Fujita, Hao Shi, Nao Yoshida, Yuan Gao, Roman Koshkin, Yukiya Hono, Yui Sudo。机构:SB Intuitions。
💡 毒舌点评
这篇论文解决了一个真实且重要的问题:日语TTS中的汉字多音字。其核心贡献——大规模数据训练结合针对性数据增强,并配套全新的评估体系——思路清晰且执行有力。然而,审稿人必须指出,论文的“系统性”解决方案在开源版本中打了折扣:核心的PronSteering模型并未开源,仅提供了其产出的合成数据。这就像提供了一份用秘方腌制好的肉,却不公布秘方本身。此外,论文中展示的跨语言鲁棒性结果极具吸引力,但其解释(训练数据语言比例)可能过于简化,提示语言影响TTS发音的深层机制尚未被真正剖析。工程细节的缺失(训练资源、速度)也让其实际部署价值在纸面上打了折扣。总体而言,这是一篇扎实的、以数据和评估驱动的工作,但离“开箱即用的完整解决方案”尚有一步之遥。
📌 核心摘要
本文提出了Sarashina2.2-TTS,一个专注于解决日语语音合成中汉字多音字歧义问题的LLM-TTS系统。作者通过双管齐下的策略应对挑战:在数据层面,利用迄今最大的日语开源训练数据集(约19.4万小时)进行预训练,并设计了一个合成数据增强管道,覆盖所有官方常用汉字的读音以处理罕见情况;在评估层面,提出了假名级别的字符错误率(Kana-CER)和覆盖所有常用汉字读音的基准测试集(Joyo Kanji Yomi Benchmark),实现了对多音字错误的精确诊断。实验表明,该方法在汉字级读音准确度上超越了所有基线系统,并在零样本说话人相似度和跨语言提示鲁棒性方面表现出色。
🔗 开源详情
- 代码:https://github.com/sbintuitions/sarashina2.2-tts
- 模型权重:https://github.com/sbintuitions/sarashina2.2-tts (根据论文描述,与代码一同提供)
- 数据集:Joyo Kanji Yomi Benchmark:https://github.com/sbintuitions/JoyoKanji-Yomi-Benchmark
- Kana-ASR模型:https://huggingface.co/sbintuitions/kana-whisper
- 评估脚本:包含在上述GitHub仓库中。
- 论文中引用的开源项目:
- CosyVoice 2:声学阶段组件来源。链接:https://github.com/FunAudioLLM/CosyVoice
- HiFi-GAN:声码器。链接:https://github.com/jik876/hifi-gan
- Whisper large-v3-turbo:用于ASR和微调Kana-ASR。链接:https://github.com/openai/whisper
- 复现材料:论文描述了两阶段训练策略,但未提供独立的详细配置文件、检查点或完整的复现脚本。PronSteering模型的合成管道代码未开源。
🏗️ 方法概述和架构
Sarashina2.2-TTS遵循了近期LLM-TTS系统的两阶段架构,将语音生成分为语义阶段和声学阶段。语义阶段的核心是骨干大语言模型(Sarashina2.2-0.5B-Instruct),这是一个24层的Transformer解码器。其输入是通过拼接得到的序列: 针对汉字多音字问题,论文在数据策略中引入了发音引导(PronSteering) 模型。这是一种在文本侧进行发音控制的机制,通过在输入文本中为指定汉字插入由特殊标记 论文在三个主要基准上进行了评估:Joyo Kanji Yomi Benchmark, JSUT, 和CV3-Ja。主要结果如下表所示。 表2: 在Joyo Kanji Yomi Benchmark和JSUT上的结果(最优加粗,次优下划线) 表6: 跨语言鲁棒性评估:按提示语言组划分的CER(退化率 = (非日语提示 - 日语提示) / 日语提示 * 100%) 表7: 在CV3-Ja上的零样本说话人相似度(最优加粗,次优下划线) 表8: 在CV3-Ja上的自动MOS评估(最优加粗,次优下划线) 结果显示,Sarashina2.2-TTS (Stage 2) 在汉字级读音准确度(Kana-CER†kanji 5.45 vs 次优的 8.55)和跨语言鲁棒性(退化率-0.2% vs 其他系统显著正增长)上表现最优。在说话人相似度上取得最高分,在语音质量(MOS)上也达到顶尖水平,证明其专注于发音准确性并未牺牲整体合成质量。[BOS, 文本提示p, 目标文本t, <|speech_start|>, 语义token提示p]。其中,语义token提示p来自参考语音,由语音分词器(S3Tokenizer V2) 转换得到。该分词器基于大规模ASR编码器构建,嵌入了有限标量量化模块,并经过ASR目标训练,以25Hz的速率生成主要编码音素内容的离散语义token序列。骨干LLM的任务是自回归地预测后续的语义token序列t,其训练目标是最大化\(p_{\theta}(\mathbf{s}_{t}|\mathbf{x}, \mathbf{s}_{<|pron_start|>和<|pron_end|>包裹的控制片段(包含假名读音和声调标签,如キョ]ー),来显式地指定该字的读音。此模型是利用约4000小时标注数据(主要来自广播和有声读物)对Stage 1模型进行微调得到的。PronSteering模型有两个作用:一是作为本文合成数据增强管道的核心生成机制;二是作为用户自定义词典(但开源版本不包含此功能,仅受益于其生成的数据)。

💡 核心创新点
📊 实验结果
系统 Joyo Kanji Yomi Benchmark JSUT Kana-CERkanji ↓ Kana-CER†kanji ↓ Kana-CERsent ↓ CER ↓ Kana-CERsent ↓ CER ↓ T5Gemma-TTS 13.81 ± 2.52 8.55 ± 0.45 3.69 ± 1.85 5.68 ± 2.85 2.80 ± 0.04 7.63 ± 0.07 Qwen3-TTS 185.89 ± 105.56 21.70 ± 0.30 23.20 ± 11.53 13.26 ± 3.67 15.58 ± 10.34 14.87 ± 6.47 FishAudio S1-mini 33.43 ± 1.41 20.19 ± 0.20 5.46 ± 0.29 6.15 ± 0.70 5.16 ± 0.05 9.03 ± 0.09 FireRedTTS-2 27.82 ± 0.88 16.39 ± 0.15 4.28 ± 0.06 5.32 ± 0.11 5.26 ± 0.22 9.33 ± 0.18 Sarashina2.2-TTS (Stage 1) 11.06 ± 0.65 6.94 ± 0.08 4.59 ± 0.83 6.36 ± 0.63 3.04 ± 0.07 8.08 ± 0.09 Sarashina2.2-TTS (Stage 2) 7.83 ± 0.70 5.45 ± 0.10 3.41 ± 0.77 5.28 ± 0.37 2.91 ± 0.06 8.02 ± 0.07 系统 日语提示 非日语提示 退化率 Qwen3-TTS 63.11 270.12 +328.1% FireRedTTS-2 11.05 29.63 +168.3% FishAudio S1-mini 9.44 20.14 +113.4% T5Gemma-TTS 10.88 12.87 +18.4% Sarashina2.2-TTS (Stage 1) 10.18 10.07 -1.1% Sarashina2.2-TTS (Stage 2) 9.55 9.53 -0.2% 系统 SIM ↑ T5Gemma-TTS 50.59 Qwen3-TTS 69.86 FishAudio S1-mini 61.38 FireRedTTS-2 66.20 Sarashina2.2-TTS (Stage 1) 75.64 Sarashina2.2-TTS (Stage 2) 74.75 系统 UTMOS ↑ UTMOS V2 ↑ DNSMOS ↑ DNSMOS P.835 ↑ Prompt Speech 2.576 2.455 3.495 2.940 T5Gemma-TTS 2.952 2.523 3.517 3.015 Qwen3-TTS 3.406 2.806 3.733 3.263 FishAudio S1-mini 3.294 2.748 3.773 3.244 FireRedTTS-2 2.582 2.508 3.598 3.142 Sarashina2.2-TTS (Stage 1) 3.184 2.888 3.811 3.238 Sarashina2.2-TTS (Stage 2) 3.174 2.877 3.824 3.242 ⚖️ 评分理由
🚨 局限与问题