掩码生成建模

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #掩码生成建模 #自回归模型 ✅ 7.0/10 | 前25% | #语音合成 | #掩码生成建模 | #自回归模型 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度中 👥 作者与机构第一作者：Jianbo Ma（论文工作完成于Dolby Laboratories；现任职于Canva Research）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Jianbo Ma（论文工作完成于Dolby Laboratories；现任职于Canva Research） Richard Cartwright（论文工作完成于Dolby Laboratories；现任职于Canva Research） 💡 毒舌点评亮点：论文巧妙地将“粗到细”的生成思想从传统的语义-声学token维度，拓展到了时间分辨率维度，提出了一个逻辑自洽且实验有效的CoD框架，为TTS建模提供了新视角。短板：实验评估过于依赖WER这一客观指标，完全缺失了MOS等主观听感评价，而语音合成的终极标准是“好不好听”，这使得其“更自然”的结论说服力大打折扣。 🔗 开源详情代码：论文提供了GitHub仓库链接（https://github.com/…，具体链接在论文HTML版本的“GitHub Issue”部分可见）。模型权重：论文中未提及是否公开预训练模型权重。数据集：使用的是公开数据集（LibriTTS, MLS），但论文未提供其处理后的具体版本或下载指引。 Demo：论文中未提及在线演示。复现材料：提供了较详细的训练超参数、模型配置、数据处理描述，有利于复现。论文中引用的开源项目：SoundChoice G2P (SpeechBrain), Wespeaker, DAC, Brouhaha, MaskGIT。 📌 核心摘要问题：现有基于离散token的TTS模型，其“粗到细”的生成范式主要体现在从语义token到声学token的转换，而对语音固有的时间动态（temporal dynamics）缺乏显式建模。方法核心：提出Chain-of-Details (CoD)框架，将语音生成分解为多个渐进的时间层级。每个层级对应不同的时间分辨率（token率），从最粗糙（低时间分辨率、捕获宏观结构）到最精细（高时间分辨率、添加细节）。所有层级共享一个统一的码本和一个双向Transformer解码器。创新点：与已有方法相比，CoD首次将时间维度的粗到细建模显式引入TTS生成过程。它不依赖独立的音素时长预测器，而是让最低时间层级自然完成音素规划。同时，采用共享解码器的设计提升了参数效率。实验结果：在LibriSpeech test-clean上，CoD-Base（263M参数）WER为3.09%，优于同等数据量下的KD-NARSIS（5.9%）和StyleTTS 2（4.0%）。在SeedTTS测试集上，CoD-Base（263M参数）WER为2.89%，与参数量近4倍的MaskGCT（1B，2.62%）性能相当。消融研究证实，增加时间层级数能显著降低WER。实际意义：CoD框架以更少的参数实现了具有竞争力的合成质量，证明了显式时间动态建模的有效性，为构建更高效、更自然的TTS系统提供了新思路。主要局限性：评估体系不完整，缺乏MOS等主观评价指标，无法全面评估语音自然度和韵律质量；未报告推理速度等效率指标；对更长时间层级（如4级）的效果未深入探索。 🏗️ 模型架构 CoD框架遵循一个两阶段流程：1）音频离散化，2）基于掩码的生成建模。核心创新在于第二阶段采用了级联的多时间层级结构。 ...