MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控合成 #流式处理 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学,通讯作者)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 这篇论文精准地瞄准了现代TTS系统中一个被忽视但实际应用中很关键的痛点——缺乏token级别的精细时长和停顿控制,并为此设计了一套从数据准备到训练机制的系统性解决方案,实验也做得很扎实。其短板也很明显:为了获得这种控制能力,模型在无控制的“自发合成”模式下,语音识别错误率(WER/CER)有明显上升,这表明精细控制与生成自然度之间存在一个不容忽视的权衡,而且目前没有任何开源迹象。 📌 核心摘要 解决的问题:现有的文本到语音(TTS)系统通常只能提供句子级的语速或时长控制,缺乏对每个token(音素或字符)内容发音时长和停顿时长的显式、精细控制能力,这限制了需要精确节奏控制的应用场景。 方法核心:提出了MAGIC-TTS,一种基于流匹配(Flow Matching)的零样本TTS模型。其核心是在文本表示中显式注入每个token的内容时长(d_i)和停顿时长(p_i)作为条件。通过精心设计的两阶段训练(大规模时长条件预训练+高置信度时长监督微调)、零值校正(使零时长输入不产生残差)和缺失控制鲁棒性训练(随机丢弃时长条件),使模型既能可靠地遵循时长指令,又能在无时长指令时保持自然合成。 与已有方法相比新在哪里:与现有提供全局语速或风格控制的系统不同,MAGIC-TTS是首个提供显式、token级内容时长和停顿控制的TTS模型。与一些将时长作为内部中间变量的系统不同,它将时长设计为外部可直接操控的高置信度条件,而非需要隐式推断的潜在变量。 主要实验结果: 在时长控制准确性上,提供显式时长条件后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588提升至0.918;停顿MAE从18.92ms降至8.32ms(详见表1)。 在局部编辑基准测试中,模型能根据指令调整局部时长,例如将目标内容时长从170ms编辑为225ms后,实现均值为207.40ms(绝对偏差17.60ms)(详见表2)。 消融实验表明,零值校正和高置信度时长监督对提升内容时长控制精度至关重要(详见表3)。 关键权衡:在无控制模式下,与同等规模持续预训练的基线相比,最终模型的英文WER从1.994升至3.434,中文CER从1.772升至2.215(详见表7)。 实际意义:为需要精确节奏控制的语音生成场景(如导航提示、引导式朗读、无障碍辅助阅读代码/验证码)提供了解决方案,能够实现可复现的均匀节奏基线,并支持局部编辑。 主要局限性:获得精细控制能力的代价是无控制模式下的合成质量(清晰度)有所下降;评估依赖于MFA强制对齐,存在测量误差;论文未提及代码和模型的开源。 🏗️ 模型架构 MAGIC-TTS建立在非自回归的零样本TTS骨干网络(F5-TTS)之上,该骨干基于条件流匹配(Conditional Flow Matching)生成梅尔频谱图。 ...

2026-04-28

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分 前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分 前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分 前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分 前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分 前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分 前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分 前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分 前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分 前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分 前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分 前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分 前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分 前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分 前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分 前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分 前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分 前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分 前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分 前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分 前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分 前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

2026-04-28