Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS

📄 Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS #语音合成 #流匹配 #端到端 #有声书生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ziqi Dai(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室)† 通讯作者:Weifeng Zhao(腾讯音乐娱乐Lyra实验室)⋆, Ruohua Zhou(北京建筑大学智能科学与技术学院)⋆ 作者列表: Ziqi Dai†(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室) Yiting Chen†(腾讯音乐娱乐Lyra实验室) Jiacheng Xu(腾讯音乐娱乐Lyra实验室) Liufei Xie(腾讯音乐娱乐Lyra实验室) Yuchen Wang(腾讯音乐娱乐Lyra实验室) Zhenchuan Yang(腾讯音乐娱乐Lyra实验室) Bingsong Bai(北京邮电大学) Yangsheng Gao(腾讯音乐娱乐Lyra实验室) Wenjiang Zhou(腾讯音乐娱乐Lyra实验室) Weifeng Zhao⋆(腾讯音乐娱乐Lyra实验室) Ruohua Zhou⋆(北京建筑大学智能科学与技术学院) 💡 毒舌点评 亮点:该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模,并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板:其“端到端”的声明略显模糊,因为核心的上下文理解与指令生成依赖于一个外部的大语言模型,这限制了系统真正的自动化程度和独立性。 ...

2026-04-29