FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions
📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 #强化学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #零样本 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dekun Chen (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute) 通讯作者:未明确说明(论文中未明确指出通讯作者) 作者列表:Dekun Chen (香港中文大学(深圳)/深圳湾实验室), Xueyao Zhang (香港中文大学(深圳)), Yuancheng Wang (香港中文大学(深圳)), Kenan Dai (Huawei Technologies Co., Ltd.), Li Ma (Huawei Technologies Co., Ltd.), Zhizheng Wu (香港中文大学(深圳)/澳门城市大学/Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的核心亮点在于其系统性地将“风格、音色、内容”的解耦问题,转化为一个可分阶段优化的强化学习课程(PPT),技术路径设计精巧且实验证据扎实。不过,其最终效果高度依赖奖励模型的质量,而论文中使用的7B开源奖励模型与闭源前沿模型仍存在代差,这在一定程度上限制了其在最复杂指令上的表现上限,也为未来工作留下了明确的改进方向。 ...