YuE: Scaling Open Foundation Models for Long-Form Music Generation
📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #预训练 #歌唱语音合成 #自回归模型 ✅ 7.5/10 | 前10% | #音乐生成 | #预训练 | #歌唱语音合成 #自回归模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ruibin Yuan(香港科技大学,MAP) 通讯作者:未说明(论文列出了多位通讯作者,按字母排序:Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo) 作者列表:Ruibin Yuan(香港科技大学,MAP), Hanfeng Lin(香港科技大学,MAP), Shuyue Guo(MAP), Ge Zhang(MAP,密歇根大学), Jiahao Pan(香港科技大学,MAP), Yongyi Zang(独立), Haohe Liu(萨里大学,MAP), Yiming Liang(MAP), Wenye Ma(MBZUAI,MAP), Xingjian Du(罗切斯特大学,MAP), Xeron Du(MAP), Zhen Ye(香港科技大学), Tianyu Zheng(MAP), Zhengxuan Jiang(MAP), Yinghao Ma(MAP,伦敦玛丽女王大学), Minghao Liu(2077AI,MAP), Zeyue Tian(香港科技大学,MAP), Ziya Zhou(香港科技大学,MAP), Liumeng Xue(香港科技大学,MAP), Xingwei Qu(MAP), Yizhi Li(MAP,曼彻斯特大学), Shangda Wu(中央音乐学院,MAP), Tianhao Shen(MAP), Ziyang Ma(MAP,上海交通大学,南洋理工大学), Jun Zhan(复旦大学), Chunhui Wang(吉利汽车), Yatian Wang(香港科技大学), Xiaowei Chi(香港科技大学), Xinyue Zhang(香港科技大学), Zhenzhu Yang(香港科技大学), Xiangzhou Wang(MAP), Shansong Liu(美团), Lingrui Mei(美团), Peng Li(香港科技大学), Junjie Wang(清华大学), Jianwei Yu(月之暗面), Guojian Pang(MAP), Xu Li(小红书), Zihao Wang(浙江大学,卡内基梅隆大学), Xiaohuan Zhou(MAP), Lijun Yu(卡内基梅隆大学), Emmanouil Benetos(伦敦玛丽女王大学,MAP), Yong Chen(吉利汽车), Chenghua Lin(曼彻斯特大学,MAP), Xie Chen(上海交通大学), Gus Xia(MBZUAI,MAP), Zhaoxiang Zhang(中国科学院), Chao Zhang(清华大学), Wenhu Chen(滑铁卢大学,MAP), Xinyu Zhou(月之暗面), Xipeng Qiu(复旦大学), Roger Dannenberg(卡内基梅隆大学,MAP)。 (注:“MAP”指Multimodal Art Projection团队) 💡 毒舌点评 亮点:首个开源且能生成长达五分钟、歌词对齐的完整歌曲的基础模型系列,其双轨分离预测和结构化渐进条件等技术,为解决长时序、多信号音乐生成提供了坚实且可扩展的方案。短板:尽管在结构控制和音域广度上与商业模型持平甚至超越,但其主观音质评估(人声与伴奏质感)与Suno V4仍有清晰可见的差距,且论文中未提供其超大模型(7B)在完整训练集上所需的、惊人的计算资源细节。 ...