MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control
📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控合成 #流式处理 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学,通讯作者)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 这篇论文精准地瞄准了现代TTS系统中一个被忽视但实际应用中很关键的痛点——缺乏token级别的精细时长和停顿控制,并为此设计了一套从数据准备到训练机制的系统性解决方案,实验也做得很扎实。其短板也很明显:为了获得这种控制能力,模型在无控制的“自发合成”模式下,语音识别错误率(WER/CER)有明显上升,这表明精细控制与生成自然度之间存在一个不容忽视的权衡,而且目前没有任何开源迹象。 📌 核心摘要 解决的问题:现有的文本到语音(TTS)系统通常只能提供句子级的语速或时长控制,缺乏对每个token(音素或字符)内容发音时长和停顿时长的显式、精细控制能力,这限制了需要精确节奏控制的应用场景。 方法核心:提出了MAGIC-TTS,一种基于流匹配(Flow Matching)的零样本TTS模型。其核心是在文本表示中显式注入每个token的内容时长(d_i)和停顿时长(p_i)作为条件。通过精心设计的两阶段训练(大规模时长条件预训练+高置信度时长监督微调)、零值校正(使零时长输入不产生残差)和缺失控制鲁棒性训练(随机丢弃时长条件),使模型既能可靠地遵循时长指令,又能在无时长指令时保持自然合成。 与已有方法相比新在哪里:与现有提供全局语速或风格控制的系统不同,MAGIC-TTS是首个提供显式、token级内容时长和停顿控制的TTS模型。与一些将时长作为内部中间变量的系统不同,它将时长设计为外部可直接操控的高置信度条件,而非需要隐式推断的潜在变量。 主要实验结果: 在时长控制准确性上,提供显式时长条件后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588提升至0.918;停顿MAE从18.92ms降至8.32ms(详见表1)。 在局部编辑基准测试中,模型能根据指令调整局部时长,例如将目标内容时长从170ms编辑为225ms后,实现均值为207.40ms(绝对偏差17.60ms)(详见表2)。 消融实验表明,零值校正和高置信度时长监督对提升内容时长控制精度至关重要(详见表3)。 关键权衡:在无控制模式下,与同等规模持续预训练的基线相比,最终模型的英文WER从1.994升至3.434,中文CER从1.772升至2.215(详见表7)。 实际意义:为需要精确节奏控制的语音生成场景(如导航提示、引导式朗读、无障碍辅助阅读代码/验证码)提供了解决方案,能够实现可复现的均匀节奏基线,并支持局部编辑。 主要局限性:获得精细控制能力的代价是无控制模式下的合成质量(清晰度)有所下降;评估依赖于MFA强制对齐,存在测量误差;论文未提及代码和模型的开源。 🏗️ 模型架构 MAGIC-TTS建立在非自回归的零样本TTS骨干网络(F5-TTS)之上,该骨干基于条件流匹配(Conditional Flow Matching)生成梅尔频谱图。 ...