可控合成 | 语音/音乐/音频论文速递

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控合成 #流式处理 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Jialong Mai（华南理工大学）通讯作者：Xiaofen Xing（华南理工大学）作者列表：Jialong Mai（华南理工大学）、Xiaofen Xing（华南理工大学，通讯作者）、Xiangmin Xu（华南理工大学） 💡 毒舌点评这篇论文精准地瞄准了现代TTS系统中一个被忽视但实际应用中很关键的痛点——缺乏token级别的精细时长和停顿控制，并为此设计了一套从数据准备到训练机制的系统性解决方案，实验也做得很扎实。其短板也很明显：为了获得这种控制能力，模型在无控制的“自发合成”模式下，语音识别错误率（WER/CER）有明显上升，这表明精细控制与生成自然度之间存在一个不容忽视的权衡，而且目前没有任何开源迹象。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：训练数据来源于Emilia子集，交叉验证后的高置信度子集（B@150）未说明是否公开。 Demo：未提供在线演示。复现材料：论文给出了非常详细的训练细节（数据来源、规模、预处理、batch size、学习率、warmup、训练步数、硬件）和超参数配置，附录中也有额外分析，有助于复现。论文中引用的开源项目：F5-TTS (骨干网络)、Stable-ts (时长标签)、MFA (交叉验证与评估)、Vocos (声码器)、Emilia (数据集)。论文中未提及开源计划。 📌 核心摘要解决的问题：现有的文本到语音（TTS）系统通常只能提供句子级的语速或时长控制，缺乏对每个token（音素或字符）内容发音时长和停顿时长的显式、精细控制能力，这限制了需要精确节奏控制的应用场景。方法核心：提出了MAGIC-TTS，一种基于流匹配（Flow Matching）的零样本TTS模型。其核心是在文本表示中显式注入每个token的内容时长（d_i）和停顿时长（p_i）作为条件。通过精心设计的两阶段训练（大规模时长条件预训练+高置信度时长监督微调）、零值校正（使零时长输入不产生残差）和缺失控制鲁棒性训练（随机丢弃时长条件），使模型既能可靠地遵循时长指令，又能在无时长指令时保持自然合成。与已有方法相比新在哪里：与现有提供全局语速或风格控制的系统不同，MAGIC-TTS是首个提供显式、token级内容时长和停顿控制的TTS模型。与一些将时长作为内部中间变量的系统不同，它将时长设计为外部可直接操控的高置信度条件，而非需要隐式推断的潜在变量。主要实验结果：在时长控制准确性上，提供显式时长条件后，内容时长MAE从36.88ms降至10.56ms，相关性从0.588提升至0.918；停顿MAE从18.92ms降至8.32ms（详见表1）。在局部编辑基准测试中，模型能根据指令调整局部时长，例如将目标内容时长从170ms编辑为225ms后，实现均值为207.40ms（绝对偏差17.60ms）（详见表2）。消融实验表明，零值校正和高置信度时长监督对提升内容时长控制精度至关重要（详见表3）。关键权衡：在无控制模式下，与同等规模持续预训练的基线相比，最终模型的英文WER从1.994升至3.434，中文CER从1.772升至2.215（详见表7）。实际意义：为需要精确节奏控制的语音生成场景（如导航提示、引导式朗读、无障碍辅助阅读代码/验证码）提供了解决方案，能够实现可复现的均匀节奏基线，并支持局部编辑。主要局限性：获得精细控制能力的代价是无控制模式下的合成质量（清晰度）有所下降；评估依赖于MFA强制对齐，存在测量误差；论文未提及代码和模型的开源。 🏗️ 模型架构 MAGIC-TTS建立在非自回归的零样本TTS骨干网络（F5-TTS）之上，该骨干基于条件流匹配（Conditional Flow Matching）生成梅尔频谱图。 ...

语音/音乐/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分分档主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...