有声书生成

📄 Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS #语音合成 #流匹配 #端到端 #有声书生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Ziqi Dai（北京建筑大学智能科学与技术学院，腾讯音乐娱乐Lyra实验室）† 通讯作者：Weifeng Zhao（腾讯音乐娱乐Lyra实验室）⋆， Ruohua Zhou（北京建筑大学智能科学与技术学院）⋆ 作者列表： Ziqi Dai†（北京建筑大学智能科学与技术学院，腾讯音乐娱乐Lyra实验室） Yiting Chen†（腾讯音乐娱乐Lyra实验室） Jiacheng Xu（腾讯音乐娱乐Lyra实验室） Liufei Xie（腾讯音乐娱乐Lyra实验室） Yuchen Wang（腾讯音乐娱乐Lyra实验室） Zhenchuan Yang（腾讯音乐娱乐Lyra实验室） Bingsong Bai（北京邮电大学） Yangsheng Gao（腾讯音乐娱乐Lyra实验室） Wenjiang Zhou（腾讯音乐娱乐Lyra实验室） Weifeng Zhao⋆（腾讯音乐娱乐Lyra实验室） Ruohua Zhou⋆（北京建筑大学智能科学与技术学院） 💡 毒舌点评亮点：该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模，并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板：其“端到端”的声明略显模糊，因为核心的上下文理解与指令生成依赖于一个外部的大语言模型，这限制了系统真正的自动化程度和独立性。 ...