Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #掩码生成建模 #自回归模型 ✅ 7.0/10 | 前25% | #语音合成 | #掩码生成建模 | #自回归模型 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 中 👥 作者与机构 第一作者:Jianbo Ma(论文工作完成于Dolby Laboratories;现任职于Canva Research) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表: Jianbo Ma(论文工作完成于Dolby Laboratories;现任职于Canva Research) Richard Cartwright(论文工作完成于Dolby Laboratories;现任职于Canva Research) 💡 毒舌点评 亮点:论文巧妙地将“粗到细”的生成思想从传统的语义-声学token维度,拓展到了时间分辨率维度,提出了一个逻辑自洽且实验有效的CoD框架,为TTS建模提供了新视角。短板:实验评估过于依赖WER这一客观指标,完全缺失了MOS等主观听感评价,而语音合成的终极标准是“好不好听”,这使得其“更自然”的结论说服力大打折扣。 🔗 开源详情 代码:论文提供了GitHub仓库链接(https://github.com/…,具体链接在论文HTML版本的“GitHub Issue”部分可见)。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开数据集(LibriTTS, MLS),但论文未提供其处理后的具体版本或下载指引。 Demo:论文中未提及在线演示。 复现材料:提供了较详细的训练超参数、模型配置、数据处理描述,有利于复现。 论文中引用的开源项目:SoundChoice G2P (SpeechBrain), Wespeaker, DAC, Brouhaha, MaskGIT。 📌 核心摘要 问题:现有基于离散token的TTS模型,其“粗到细”的生成范式主要体现在从语义token到声学token的转换,而对语音固有的时间动态(temporal dynamics)缺乏显式建模。 方法核心:提出Chain-of-Details (CoD)框架,将语音生成分解为多个渐进的时间层级。每个层级对应不同的时间分辨率(token率),从最粗糙(低时间分辨率、捕获宏观结构)到最精细(高时间分辨率、添加细节)。所有层级共享一个统一的码本和一个双向Transformer解码器。 创新点:与已有方法相比,CoD首次将时间维度的粗到细建模显式引入TTS生成过程。它不依赖独立的音素时长预测器,而是让最低时间层级自然完成音素规划。同时,采用共享解码器的设计提升了参数效率。 实验结果:在LibriSpeech test-clean上,CoD-Base(263M参数)WER为3.09%,优于同等数据量下的KD-NARSIS(5.9%)和StyleTTS 2(4.0%)。在SeedTTS测试集上,CoD-Base(263M参数)WER为2.89%,与参数量近4倍的MaskGCT(1B,2.62%)性能相当。消融研究证实,增加时间层级数能显著降低WER。 实际意义:CoD框架以更少的参数实现了具有竞争力的合成质量,证明了显式时间动态建模的有效性,为构建更高效、更自然的TTS系统提供了新思路。 主要局限性:评估体系不完整,缺乏MOS等主观评价指标,无法全面评估语音自然度和韵律质量;未报告推理速度等效率指标;对更长时间层级(如4级)的效果未深入探索。 🏗️ 模型架构 CoD框架遵循一个两阶段流程:1)音频离散化,2)基于掩码的生成建模。核心创新在于第二阶段采用了级联的多时间层级结构。 ...

2026-04-23 · 更新于 2026-05-19 · 2 min · 266 words