VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng (Microsoft Research) 通讯作者:Furu Wei (Microsoft Research) 作者列表:Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评 这篇论文成功地将播客生成从“能用”推向了“好用”的阶段,特别是其超低帧率(7.5Hz)的连续声学分词器在保持高保真度(UTMOS 4.18)的同时极大压缩了序列长度,是处理长序列的关键创新,解决了90分钟超长对话生成的核心瓶颈。然而,该方法对数据质量(需自建复杂标注管道)和训练复杂性(课程学习、大规模计算)的依赖,使其复现门槛较高,且论文并未公开其内部播客数据集。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 323 words

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #语音大模型 #扩散模型 #多说话人 🔥 8.5/10 | 前25% | #语音合成 | #扩散模型 | #语音大模型 #多说话人 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng(Microsoft Research) 通讯作者:Furu Wei(Microsoft Research) 作者列表:Zhiliang Peng(Microsoft Research)、Jianwei Yu(Microsoft Research)、Wenhui Wang(Microsoft Research)、Yaoyao Chang(Microsoft Research)、Yutao Sun(Microsoft Research)、Li Dong(Microsoft Research)、Yi Zhu(Microsoft Research)、Weijiang Xu(Microsoft Research)、Hangbo Bao(Microsoft Research)、Zehua Wang(Microsoft Research)、Shaohan Huang(Microsoft Research)、Yan Xia(Microsoft Research)、Furu Wei(Microsoft Research) 💡 毒舌点评 这篇论文通过超低帧率的连续语音分词器和下一个token扩散框架,为“像人一样聊一小时”这个语音生成领域的终极难题提供了一个工程上非常扎实且效果显著的方案,尤其在长篇、多人对话生成上取得了SOTA。但论文的“多说话人”实验部分,对于超过4人或存在激烈抢话、声音重叠等极端复杂对话场景的鲁棒性验证略显不足,现实世界的播客可能比测试集更“混乱”。 ...

2026-05-02 · 更新于 2026-05-19 · 3 min · 432 words