可控语音 | 语音/音乐/音频论文速递

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance #语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kang Yin（中国科学技术大学），Chunyu Qiang（快手科技）（论文标注†表示同等贡献，故两位均为第一作者）通讯作者：Sirui Zhao（中国科学技术大学），Tong Xu（中国科学技术大学），Chen Zhang（快手科技）（论文标注*表示通讯作者）作者列表： Kang Yin（中国科学技术大学） Chunyu Qiang（快手科技） Sirui Zhao（中国科学技术大学） Xiaopeng Wang（快手科技） Yuzhe Liang（快手科技） Pengfei Cai（中国科学技术大学） Tong Xu（中国科学技术大学） Chen Zhang（快手科技） Enhong Chen（中国科学技术大学） 💡 毒舌点评本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案，Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效，实验数据扎实，切实推动了可控TTS在解耦方向上的进步。然而，其创新更多是“优秀的组合”而非“从零的突破”，且说话人相似度这一关键指标不及部分基线，暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。 ...