📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation

#音乐生成 #自回归模型 #歌唱语音合成 #多模态模型 #音频大模型

✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #歌唱语音合成 #多模态模型

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高

👥 作者与机构

第一作者：未说明（论文列出了大量作者，但未明确区分第一作者）
通讯作者：未说明（论文提供了多位联系人邮箱，但未明确指定通讯作者）
作者列表：Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi LI, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, XiangzhouWang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo（主要隶属机构为：Multimodal Art Projection (MAP), 香港科技大学 (HKUST)；部分作者同时隶属Moonshot.ai, 上海交通大学 (SJTU), 清华大学, CMU, Queen Mary University of London等）。

💡 毒舌点评

亮点：作为首个在质量上能与Suno、Udio等商业巨头掰手腕的开源歌词到歌曲生成模型，YuE的诞生本身就是对音乐AI民主化的巨大贡献，其系统性技术方案（双轨预测、结构化条件、音乐ICL重设计）为后续研究提供了清晰的蓝图。短板：尽管在“音乐性”和“人声敏捷度”上表现亮眼，但在音质保真度（VocalQual, AccompQual）上与顶级闭源系统仍有可感知的差距，这指向了其语义-声学融合编解码器的根本性局限；此外，对于训练数据版权合规性的说明仍显笼统，这在生成式AI伦理日益受关注的当下是一个隐患。

🔗 开源详情

代码：提供。论文明确指向GitHub仓库：https://github.com/multimodal-art-projection/YuE。
模型权重：提供。论文明确指向HuggingFace模型库：https://huggingface.co/collections/m-a-p/yue。
数据集：未完全公开。论文说明数据来源于网络并筛选Creative Commons许可内容，规模为7万小时语音+65万小时音乐，但未提供下载或直接访问方式。
Demo：提供。在线演示链接：https://map-yue.github.io/。
复现材料：非常充分。论文附录详细说明了Tokenization（X-Codec细节）、Stage-2架构、评估协议（主观/客观指标定义）、训练数据分布（语言、流派）、测试用prompt列表以及伦理考量。
引用的开源项目：论文中提到了多个依赖的开源工具和模型，包括：LLaMA2（架构基础）、X-Codec（音频分词器）、Vocos（上采样）、All-in-one（歌曲结构分析）、Whisper（WER计算）、RMVPE（音高估计）、ByteCover2（记忆化测试）、CLAP与CLaMP3（对齐评估）、audioldm_eval（客观评估）、PaSST（特征提取）等。
总结：论文提供了高水平的开源支持，涵盖了从代码、模型到评估的全流程。对于研究社区而言，这是一个可立即使用的强大基线模型。

📌 核心摘要

问题：论文旨在解决从歌词生成完整歌曲（包含人声与伴奏）的长期、复杂难题，现有开源系统无法在保证质量、结构连贯性和歌词对齐的前提下生成长音乐。
方法：提出了YuE模型家族，采用两阶段自回归语言模型架构。核心创新包括：a) 双轨解耦预测：将每个时间步的人声和伴奏作为两个独立token建模，以应对声学复杂场景（如金属乐）。b) 结构化渐进式条件：利用歌曲固有的段落结构（主歌、副歌等），将文本和音频token交错排列，以实现长上下文歌词对齐。c) 重新设计的音乐ICL：通过延迟激活策略，实现风格迁移、声音克隆和双向创作，避免“捷径学习”。
创新：首次为歌词到歌曲任务提出并实现了可扩展的、基于LLaMA架构的开源基础模型。双轨预测解决了混合信号建模的瓶颈；结构化条件为超长序列生成提供了有效解决方案；音乐ICL框架超越了传统的单向续写模式。
结果：
- 主观评估（图3）：在“音乐性”上，YuE与Tiangong和Udio打成平手，击败Hailuo，但落后于Suno V4。
- 人声敏捷度（图4）：YuE的歌曲级音域（中位数约27半音）接近Suno V4，优于Hailuo和Tiangong。
- 生成时长（图5）：YuE能生成最长的音频，且时长分布范围最广。
- 客观指标（表1）：在KL散度（0.372，最优）和CLaMP3分数（0.240，最优）上领先，显示其音频分布匹配度和语义对齐能力出色。
- 消融实验：双轨预测（图7）比标准NTP收敛更快（损失低约0.4）；结构化渐进式条件（图8）在长音频（>60秒）下显著降低歌词错误率（WER）。
意义：为音乐生成领域提供了强大的开源基础模型，推动了该领域的透明化和可复现研究，并证明了开源系统可以达到接近商业产品的水平。
局限：音质（尤其是声学保真度）与顶级闭源系统仍有差距；歌词跟随能力在极端风格下可能退化；训练数据集未公开，限制了完全复现；模型的跨文化、跨语言能力虽被评估但仍有提升空间。

🏗️ 模型架构

YuE采用两阶段、基于自回归语言模型的框架，专为“歌词到歌曲”任务设计。其整体流程如下图所示。

图1：YuE两阶段歌词到歌曲生成框架概览图

整体架构：如图1所示，系统包含文本分词器、音频分词器（带轻量上采样器）以及两个语言模型（LM）。文本分词器处理指令、风格和歌词。音频分词器（X-Codec）将波形转换为离散token，其codebook-0富含语义信息。
第一阶段（Stage-1 LM）：这是核心生成模型，采用LLaMA2架构，参数规模达7B。它接收文本token和来自codebook-0的音频token，以自回归的“下一token预测”（NTP）方式生成歌词和粗粒度的音频token序列。其关键创新是双轨解耦预测（Dual-NTP）（见图2），在每个时间步同时预测人声token (v_t) 和伴奏token (a_t)，联合建模两者。
第二阶段（Stage-2 LM）：这是一个较小的（2B参数）残差建模模型。它以Stage-1生成的codebook-0 token序列作为固定条件（clamp），自回归地生成其余7个codebook（1-7）的残差token，以细化音频细节，提升保真度。其设计确保了与Stage-0在时间上严格对齐。
文本条件控制：结构化渐进式条件（SPC）被嵌入到Stage-1 LM中。它首先利用“all-in-one”模型对歌曲进行结构分段，然后在训练和推理时，将歌词和结构标签（如[verse]、[chorus]）与对应的音频段落交错排列，形成如下序列：<指令> <歌词> <结构标签1> <音频片段1> <结构标签2> <音频片段2> ...。这解决了长上下文下文本条件衰减的问题。
音乐ICL：在训练数据的末尾阶段，随机采样一段30秒的参考音频token序列，拼接到SPC数据之前，形成Dicl = Aref ◦ Dspc，使模型能够执行风格克隆、内容创作等任务。

图11：第二阶段（Stage-2）残差建模架构图

💡 核心创新点

双轨解耦预测（Dual-NTP）：是什么：在标准NTP中，每个时间步仅预测一个token；而Dual-NTP将每个时间步拆分为两个token，分别显式地建模人声和伴奏轨道，其联合概率被分解为P(v_t, a_t | history) = P(v_t | history) P(a_t | history, v_t)。
- 之前局限：标准NTP或单token模型在混合人声与伴奏时，伴奏信号容易掩盖人声，导致在声学复杂场景（如重金属）下歌词可懂度（由WER量化）急剧下降。
- 如何起作用：通过引入“源分离先验”，模型可以更清晰地关注不同轨道的动态，避免信号干扰。这无需修改基础LM架构，易于扩展。
- 收益：实验表明，Dual-NTP比标准NTP收敛更快、训练损失更低（图7），并且在低人声-伴奏比（VAR）的困难样本上，能显著降低歌词重构后的错误率增量（图6），证明了其鲁棒性。
结构化渐进式条件（SPC）：
- 是什么：一种利用歌曲固有结构（前奏、主歌、副歌等）进行条件注入的方法。它将歌词、结构标签和对应的音频段在序列中交错排列。
- 之前局限：简单的前缀文本条件在音频token序列变长时（>3K token）会完全失效，导致模型无法生成与歌词对齐的长音乐。尝试增加RoPE基数或课程学习也无效。
- 如何起作用：将长序列“切分”为多个结构段落，每个段落内部文本与音频对齐，模型在每个段落内部处理短程依赖，而段落间的全局结构则由LM的上下文能力维持。
- 收益：消融实验（图8）显示，SPC在生成超过60秒的音乐时，能保持显著更低的歌词错误率（WER），而其他方法（如Vanilla、Curriculum）的WER随时间急剧上升。
为音乐重新设计的上下文学习（ICL）：
- 是什么：将一段30秒的参考音频token直接拼接到训练数据前，使模型能基于此进行创作。并采用延迟激活策略，仅在训练退火阶段引入ICL数据。
- 之前局限：传统语音ICL（文本参考+输入文本+参考音频+生成音频）依赖参考文本转录、是单向续写、且容易导致生成内容与参考内容过度纠缠（版权问题）。
- 如何起作用：ICL作为强条件信号，如果过早引入，模型会学会“捷径学习”——直接复制参考音频，丧失创造性和歌词控制力。延迟激活（在最后加入少量ICL数据）使得模型先学会通用的音乐生成能力，再学习如何“参考”，从而实现解耦控制。
- 收益：使模型具备风格迁移（如将日文City Pop转为英文）、声音克隆和双向创作能力，且主观评估显示ICL能大幅提升生成的音乐性（图9b）。
两阶段建模与语义-声学融合编解码器：
- 是什么：Stage-1建模高层语义（codebook-0），Stage-2建模底层声学细节（codebook 1-7）。采用X-Codec作为音频分词器，它融合了HuBERT的语义信息和声学重建信息。
- 之前局限：纯声学编解码器（如Encodec）的token对于LM来说太难学习，在野外数据上难以收敛；纯语义token则损失声学细节。
- 如何起作用：X-Codec的融合token兼具语义稳定性和一定的声学信息，帮助LM（尤其是小模型）更好地收敛。两阶段设计则将困难的长期规划（Stage-1）与细节恢复（Stage-2）解耦。
- 收益：相比纯声学编解码器，使用X-Codec能成功训练0.5B规模的模型并收敛（表6）。两阶段设计使得最终生成的音频在保持语义的同时，具有较高的声学保真度。

🔬 细节详述

训练数据：未公开原始数据集。论文说明使用了约7万小时的语音和65万小时来自网络的、具有创作共用（Creative Commons）许可的音乐。数据预处理包括通过字符串匹配自动过滤版权声明内容。数据混合比例：预训练阶段，条件:无条件 = 3:1，音乐:语音 = 10:1；退火阶段，仅使用SPC和ICL数据，SPC:ICL = 2:1。
损失函数：标准的自回归交叉熵损失。Stage-1 LM的损失是文本token和codebook-0音频token的预测损失之和。Stage-2 LM的损失是在teacher forcing下，对所有8个codebook（0-7）的联合预测损失。
训练策略：
- 优化器：未明确提及，但使用了线性预热（warmup）和退火学习率策略。
- 学习率：峰值为3e-4，在退火阶段降至3e-5。
- Batch Size：全局批次大小为768。
- 训练分阶段：
  1. 预训练：Stage-1在0.5B、2B、7B模型上，分别使用500B、500B、1.75T个token进行预训练。上下文长度16K。
  2. 退火：Stage-1的7B模型在40B个token上进行退火，仅使用SPC和ICL数据。
  3. Stage-2训练：使用2T个token，上下文长度8K，在连续的6秒单轨道片段上训练。
关��超参数：
- 模型大小：Stage-1 LM：7B参数；Stage-2 LM：2B参数。
- 音频分词器（X-Codec）：帧率50Hz，使用8个RVQ层（码本大小1024）。轻量上采样模块将16kHz音频提升至44.1kHz。
- 文本分词器：LLaMA分词器（32000 BPE tokens），并扩展以支持多种音频tokenizer。
训练硬件：未说明具体的GPU型号、数量和训练时长。
推理细节：
- 解码策略：采用采样（Sampling）和分类器自由引导（Classifier-Free Guidance, CFG）来提升“好样本”生成率。
- ICL使用：使用歌曲的副歌段落作为ICL前缀，可增强音乐性和稳定性。
- 两阶段流程：首先Stage-1自回归生成codebook-0 token序列，然后Stage-2以该序列为固定条件，生成残差codebook 1-7，最后通过轻量上采样模块输出44.1kHz波形。
正则化/稳定技巧：在训练Stage-1 ICL数据时，采用延迟激活策略，以避免捷径学习。在训练上采样器时，应用码本dropout并引入少量高斯噪声以增强鲁棒性。

📊 实验结果

主观评估（A/B测试）：
- 整体偏好（图3左）：与四个商业系统（Suno V4, Udio, Hailuo, Tiangong）对比。YuE在“总体”上对Tiangong、Udio的胜率约为50%，对Hailuo胜率超70%，但对Suno V4胜率约30%。
- 音乐性（图3右，图14左）：在六项音乐性维度（声学质量、伴奏质量、歌曲结构等）上，YuE在歌曲结构和编曲复杂度上表现突出，但在人声和伴奏的声学质量上弱于顶级系统。归一化后（以Suno V4为基准），YuE在音乐结构维度得分最高。

图3：YuE与四个商业系统的主观评估胜率对比图（左：总体偏好；右：音乐性）

图14：不同系统在音乐维度（左）和可控性维度（右）上的归一化胜率雷达图

人声敏捷度（图4）：通过分析歌曲中人声的音域范围（半音数）分布。YuE的中位数约27半音，接近Suno V4，显著优于Hailuo和Tiangong（中位数约20半音）。
生成时长（图5）：YuE生成的歌曲时长最长，且分布范围最广（最高超过400秒），Suno V4和Tiangong次之，Hailuo最短。

图5：不同系统生成歌曲的时长分布对比图

客观指标对比（表1）：

Metric (方向)	Hailuo	SunoV4	Tiangong	Udio	YuE
KL↓	0.756	0.620	0.708	0.503	0.372
FAD↓	2.080	1.544	2.547	1.222	1.624
CE↑	7.350	7.474	7.421	7.112	7.115
CU↑	7.737	7.813	7.766	7.520	7.543
PC↑	6.793	6.601	6.060	6.626	6.280
PQ↑	8.132	8.120	8.220	7.803	7.894
CLAP↑	0.265	0.265	0.244	0.310	0.118
CLaMP 3↑	0.106	0.160	0.114	0.156	0.240
注：KL和FAD越低越好，其余越高越好。
YuE在KL散度（分布匹配）和CLaMP 3分数（语义对齐）上表现最佳，但在其他声学质量指标（PQ, CE）和CLAP分数上不占优。

消融实验：
1. 双轨预测 vs 标准NTP（图7）：在相同的0.5B模型和20B token预算下，Dual-NTP的训练损失始终低于标准NTP约0.4，收敛更快。
2. 歌词跟随能力 vs 长度（图8）：比较了不同长条件方法。随着生成时长增加（30s -> 150s），Vanilla（前缀条件）和Curriculum方法的WER急剧上升（>70%），而SPC方法保持了较低的WER。将模型从0.5B扩展到7B，WER从约70%大幅下降到约20%。

图8：不同长条件方法下，歌词错误率（WER）随生成时长变化的对比图

3.  模型扩展效果（图9a）：比较0.5B、2B、7B模型。在成对A/B测试中，音乐性和歌词跟随能力的胜率随模型规模增大和训练token增多（0.5B/2B用500B token， 7B用1.75T token）而显著提升。

4.  推理技巧效果（图9b）：对比不同推理配置。ICL（仅）的胜率为0.63， 远高于SPC（仅）的0.21。加入CFG后，ICL+CFG达到最高的0.79胜率。

记忆化测试（图10）：通过计算训练集参考音频与ICL生成音频之间的ByteCover2余弦相似度，发现Ref-Gen相似度远低于已知翻唱集（Covers80），与不同歌曲集（GTZAN）相当，表明模型主要重组模式而非复制记忆。

图10：训练参考音频与生成音频的余弦相似度分布对比图

语言学信息损失分析（图12，图6）：
- 图12显示，在混合音频中，重金属（Metal）流派的WER最高，其次是流行（Pop）和嘻哈（Hip-Hop），表明其“语言学信息损失”最大。人声轨道的WER始终远低于混合音频。
- 图6展示了WER与人声-伴奏比（VAR）的关系。对于混合音频重建，当VAR降低（伴奏增强）时，WER显著上升（ΔWER变大）。而人声轨道的WER受VAR影响小，ΔWER小，证明了双轨解耦对抵抗伴奏干扰的有效性。

图12：不同音乐流派下，混合音频与人声轨道的WER对比图

⚖️ 评分理由

学术质量：6.5/7 论文针对“歌词到歌曲”这一复杂任务，提出了一个完整、创新且自洽的技术体系。双轨预测、结构化渐进条件和音乐ICL重设计是三个有实质贡献的核心创新，解决了长程依赖、混合信号建模和可控生成等关键问题。实验设计全面，包括与多个顶尖商业系统的主/客观对比，以及详尽的组件消融研究，结果支撑了其主要论点。不足在于：1）与最强系统（Suno V4）在整体质量和音质上仍有差距；2）部分技术细节（如Stage-2的详细训练损失、完整的数据筛选算法）未在附录中充分展示。
选题价值：1.8/2 长音乐生成，特别是端到端的歌词到歌曲生成，是AI创意领域的热门前沿。YuE作为首个高质量的开源解决方案，具有极高的研究价值和应用潜力，将极大降低该领域的研究门槛，推动社区创新。其技术（如长条件控制、多轨道建模）对更广泛的音频生成任务也有参考意义。
开源与复现加成：0.9/1 论文的开源实践堪称典范。提供了完整的代码仓库、预训练模型权重、在线演示、评估脚本以及非常详细的训练/推理配置（包括超参数、数据混合比例等）。这为复现和后续研究提供了极大便利。主要扣分项是核心训练数据集未公开，虽然论文说明了其来源和筛选原则，但完全复现仍受限于此。

← 返回 ICLR 2026 论文分析

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文