ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis
📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #大语言模型 #对比学习 ✅ 7.0/10 | 前25% | #语音合成 | #知识蒸馏 | #流匹配 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Aoduo Li(Guangdong University of Technology) 通讯作者:未说明 作者列表:Aoduo Li(Guangdong University of Technology),Haoran Lv(Guangdong University of Technology),Hongjian Xu(Guangdong University of Technology),Shengmin Li(South China University of Technology),Sihao Qin(South China University of Technology),Zimeng Li(Shenzhen Polytechnic University),Chi Man Pun(University of Macau),Xuhang Chen(Huizhou University) 💡 毒舌点评 亮点:论文提出的“Persona-Prosody Dual-Track (P2-DT)”架构思路清晰,将静态身份与动态韵律显式解耦,并通过蒸馏14B LLM的推理能力来指导韵律生成,为解决“角色一致性”与“情感表达”之间的矛盾提供了一个有潜力的技术路径。短板:论文最大的软肋在于其核心贡献之一——AnimeTTS-Bench数据集——规模极小(仅4.2小时,3个角色)且未开源,导致其报告的SOTA结果(如CCS: 0.86, mAP: 0.75)缺乏在更大规模、更多样化数据上的验证,说服力大打折扣。此外,代码和模型均未开源,严重阻碍了学术界的复现与跟进。 ...