UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions
📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chunyu Qiang(天津大学, 快手科技) 通讯作者:Longbiao Wang(天津大学), Jianwu Dang(天津大学) 作者列表:Chunyu Qiang(天津大学, 快手科技)、Xiaopeng Wang(快手科技)、Kang Yin(快手科技)、Yuzhe Liang(快手科技)、Yuxin Guo(快手科技, 中国科学院自动化研究所)、Teng Ma(快手科技)、Ziyu Zhang(快手科技)、Tianrui Wang(天津大学)、Cheng Gong(天津大学)、Yushen Chen(快手科技)、Ruibo Fu(中国科学院自动化研究所)、Chen Zhang(快手科技)、Longbiao Wang(天津大学)、Jianwu Dang(天津大学) 💡 毒舌点评 亮点:论文真正实现了语音、音乐、音效的“三合一”生成,且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑,还在语音和音乐的主流评测中刷出了新SOTA,证明了“团结就是力量”。 短板:在音效生成这个“混沌领域”,这个统一模型还是打不过那些专精于此的专门模型(如GenAU-L),并且论文未开源代码和模型,让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...