VibeVoice: Expressive Podcast Generation with Next-Token Diffusion
📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng (Microsoft Research) 通讯作者:Furu Wei (Microsoft Research) 作者列表:Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评 这篇论文成功地将播客生成从“能用”推向了“好用”的阶段,特别是其超低帧率(7.5Hz)的连续声学分词器在保持高保真度(UTMOS 4.18)的同时极大压缩了序列长度,是处理长序列的关键创新,解决了90分钟超长对话生成的核心瓶颈。然而,该方法对数据质量(需自建复杂标注管道)和训练复杂性(课程学习、大规模计算)的依赖,使其复现门槛较高,且论文并未公开其内部播客数据集。 ...