Scaling Properties of Continuous Diffusion Spoken Language Models
📄 Scaling Properties of Continuous Diffusion Spoken Language Models #语音大模型 #预训练 #扩散模型 #多语言 🔥 8.0/10 | 前25% | #语音生成 | #扩散模型 | #语音大模型 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jason Ramapuram(†工作完成于Apple) 通讯作者:Jason Ramapuram (jason@ramapuram.net);Eeshan Gunesh Dhekane (eeshan@apple.com);Amitis Shidani (amitis_shidani@apple.com);Tatiana Likhomanenko (antares@apple.com) (论文未明确指定单一通讯作者,以上四位均列出) 作者列表: Jason Ramapuram† Eeshan Gunesh Dhekane* Amitis Shidani* Dan Busbridge Bogdan Mazoure† Zijin Gu Russ Webb Tatiana Likhomanenko⋆ Navdeep Jaitly†⋆ 所属机构:全部隶属于 Apple。⋆和†符号分别表示核心建议者和工作在Apple完成,但作者单位均标注为Apple。 💡 毒舌点评 本文严谨地证明了连续扩散语音模型同样遵循缩放定律,且在高计算预算下展现出比自回归模型更优的“效率前沿”,为语音生成范式之争提供了坚实的数据支撑。然而,最精妙的16B模型实验仍未能攻克长篇连贯性的终极难题,无情地揭示了当前范式与文本模型之间的能力鸿沟,可能预示着语音原生生成道路的艰辛。 ...