MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control
📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 亮点在于它系统性地解决了TTS中“token级时长控制”这个长期被忽略的痛点,并通过精巧的条件注入和高置信度数据监督,实现了从“全局语速”到“单字时长”的可控性飞跃,为有声读物、语音导航等应用提供了新工具。短板是论文在展示“控制力”的同时,未能充分证明其“合成力”——即与当前顶尖的零样本TTS模型(如CosyVoice 2)相比,其默认语音的自然度和表现力是否依然具有竞争力,这使得其实际应用价值打上了一个问号。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:论文中详细描述了其构建的数据集(CPT语料和SFT高置信度子集),但未提及是否公开或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了较为详细的训练细节(如模型配置、优化器参数、训练步数、硬件信息)和消融实验设置,附录中包含额外分析,这有助于理解方法,但不足以完全复现,因为缺少核心代码和数据。 论文中引用的开源项目:依赖的开源工具/模型包括:F5-TTS(骨干网络)、Stable-ts(用于时序标注)、Montreal Forced Aligner (MFA)(用于高置信度标注)、Vocos(声码器)、Emilia(数据集)、MNV-17 ASR模型(用于转录)。 📌 核心摘要 问题:现代文本到语音(TTS)系统普遍缺乏对单个token(字/音素)级别内容时长和停顿的精确、显式控制能力,现有控制通常仅限于句子级语速或全局风格,无法满足需要精细节奏控制的场景。 方法核心:本文提出了MAGIC-TTS,首个支持显式token级时长和停顿控制的TTS模型。其核心是在一个基于流匹配(Flow Matching)的零样本TTS骨干网络上,通过可学习的残差向量将token级的时长和停顿数值作为显式条件注入文本表示。同时,设计了高置信度时长监督数据构建流程(交叉验证Stable-ts与MFA对齐)和训练机制(零值校正、控制缺失鲁棒性训练)来确保控制的可靠性。 创新点:a) 首次实现显式、可解释的token级内容时长与停顿控制;b) 提出了结合大规模弱监督和高置信度交叉验证的时长数据构建方法;c) 通过零值校正和随机丢弃训练,平衡了可控合成与默认高质量合成。 主要实验结果:在时序控制基准测试中,提供显式控制后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588升至0.918;停顿MAE从18.92ms降至8.32ms。在局部编辑场景测试中,模型能以低偏差(内容17.60ms,停顿23.33ms)将编辑区域向目标值调整。消融实验证明了零值校正和高置信度监督的有效性。 实际意义:使TTS系统能够支持需要精确节奏控制的应用,如导航语音的局部强调、有声读物的节奏引导、无障碍场景下的代码朗读等,提升了语音合成的可编程性和实用性。 主要局限性:a) 未与当前SOTA的零样本TTS模型在合成自然度、说话人相似度等核心指标上进行对比,无法评估其在通用合成质量上的水平;b) 评估主要基于中文数据,缺乏多语言验证;c) 未开源代码和模型,复现门槛高。 🏗️ 模型架构 MAGIC-TTS建立在一个基于条件流匹配(Conditional Flow Matching)的非自回归零样本TTS骨干网络(具体为F5-TTS)之上。其核心创新在于对文本侧条件表示的增强,以注入显式时序控制。 ...