DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance #语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kang Yin(中国科学技术大学),Chunyu Qiang(快手科技) (论文标注†表示同等贡献,故两位均为第一作者) 通讯作者:Sirui Zhao(中国科学技术大学),Tong Xu(中国科学技术大学),Chen Zhang(快手科技) (论文标注*表示通讯作者) 作者列表: Kang Yin(中国科学技术大学) Chunyu Qiang(快手科技) Sirui Zhao(中国科学技术大学) Xiaopeng Wang(快手科技) Yuzhe Liang(快手科技) Pengfei Cai(中国科学技术大学) Tong Xu(中国科学技术大学) Chen Zhang(快手科技) Enhong Chen(中国科学技术大学) 💡 毒舌点评 本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案,Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效,实验数据扎实,切实推动了可控TTS在解耦方向上的进步。然而,其创新更多是“优秀的组合”而非“从零的突破”,且说话人相似度这一关键指标不及部分基线,暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。 ...

2026-04-29