📄 LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training

#音乐生成 #大语言模型 #扩散模型 #多模态模型 #对比学习 #数据增强

9.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5

👥 作者与机构

论文作者来自清华大学深圳国际研究生院（清华-港中文联合研究中心）、腾讯、武汉大学以及香港理工大学。通讯作者为清华大学的吴志勇教授和腾讯的于东博士。第一作者Lei Shun在论文完成时为腾讯实习生。

💡 毒舌点评

这篇工作是典型的“大力出奇迹”式的系统工程论文，扎实有余，灵光乍现不足。其核心贡献——分层LeLM架构和渐进式后训练——本质上是将已有的Transformer LM、VQ-VAE、扩散模型和DPO/RLHF技术进行了精心的组合与流水线化设计。分层思想虽解决了序列长度和协调性问题，但并非首创；训练范式虽设计精巧（美学引导、阶段解耦），但更像是一套针对数据和任务特性的工程化解决方案，而非普适性的算法创新。论文最大的优点在于诚实和全面：它坦诚地承认了与顶级商业系统的差距，详细公开了训练细节和代码，消融实验做得非常扎实，证明了每个设计模块的必要性。对于领域内的实践者来说，这是一份极佳的参考蓝图和可复现的基线；但对于追求颠覆性创新的顶会审稿人来说，其方法论上的“新瓶装旧酒”会是主要扣分点。分数给到8.0，是对其工程完整度、实验严谨性和开源贡献的高度认可，但也明确反映了其在根本性创新上的局限。

📌 核心摘要

本文提出了LeVo 2，一个用于可控且富有旋律性的完整歌曲生成的混合LLM-Diffusion框架。其核心架构LeLM采用分层表示建模，首先由混合语义LM预测混合令牌以捕获全局音乐结构（旋律、节奏、人声与伴奏协调），随后特定音轨LM基于前者的隐藏状态并行预测人声与伴奏令牌，以精化声学细节，最后由基于扩散的音乐编解码器将预测的令牌重建为波形。论文的主要贡献在于提出了一套由自动化音乐美学评估框架引导的三阶段训练范式，该范式包含解耦的渐进式后训练策略（SFT、大规模离线DPO、闭环半在线DPO），旨在依次优化生成质量、可控性（歌词和提示对齐）和音乐性，以缓解多目标优化冲突和静态数据集的局限。实验表明，LeVo 2在六个主观维度上显著超越所有开源基线，并在部分指标上接近领先的商业系统（Suno v5, Mureka v8），消融研究验证了其架构和训练策略各组件的有效性。

🔗 开源详情

代码：https://github.com/levo-demo/LeVo
模型权重：https://github.com/levo-demo/LeVo （代码仓库中包含）
数据集：未开源。论文提及使用约50万小时歌曲音频，并采用SongPrep进行处理，但未提供可下载的数据集链接。
Demo：https://levo-demo.github.io/levo_v2_demo/
复现材料：提供了详细的训练配置和推理参数，但未提供中间检查点或额外的附录文件。
论文中引用的开源项目：列出了包括Jukebox、YuE、DiffRhythm系列、ACE-Step、MuCodec、MuQ等在内的20余个项目，但未提供这些项目的具体链接。

🏗️ 方法概述和架构

LeVo 2采用混合LLM-Diffusion架构，包含核心的语言模型LeLM和基于扩散的音乐编解码器（Music Codec）。

LeLM (分层语言模型): LeLM是一个层次化的双LM结构，旨在解耦全局语义规划与局部声学精化。

混合语义LM (Mixed Semantic LM): 作为全局规划器，采用decoder-only Transformer架构。其任务是根据条件\(\mathbf{C}\)（歌词、可选的文本描述和音频提示）预测混合令牌序列\(\mathbf{S}_m\)。混合令牌是从人声与伴奏混合音频中离散化得到的，包含了旋律、节奏、速度及人声-伴奏协调性等高层结构信息，类似于一种伪思维链。其建模过程遵循自回归范式：\(p(\mathbf{S}_{m}|\mathbf{C};\boldsymbol{\theta}) = \prod_{t=0}^{T}p(\mathbf{S}_{m,t}|\mathbf{S}_{m,
特定音轨LM (Track-Specific LM): 作为一个轻量级模块，用于在全局语义指导下精化声学细节。它基于混合语义LM的隐藏状态，并行地预测人声令牌\(\mathbf{S}_v\)和伴奏令牌\(\mathbf{S}_a\)。其设计引入了延迟模式：在预测第\(t\)步的双轨令牌时，模型可以访问混合令牌直到第\(t+k\)步的隐藏状态（\(k\)为延迟步数），以获得更全面的上下文。其条件概率为： \[p(\mathbf{S}_{v},\mathbf{S}_{a}|\mathbf{C};\boldsymbol{\theta}) = \prod_{t=0}^{T-k}p(\mathbf{S}_{v,t},\mathbf{S}_{a,t}|\mathbf{S}_{v,

音乐编解码器 (Music Codec): 基于MuCodec构建，负责音频与令牌之间的转换。

编码器: 包含MuEncoder和多个向量量化器（VQ）。MuEncoder提取语义表征，然后由VQ-Mixed、VQ-Vocal和VQ-Accompaniment分别将混合音频、分离后的人声和伴奏音频离散化为对应的令牌（\(\mathbf{S}_m, \mathbf{S}_v, \mathbf{S}_a\)）。人声/伴奏分离使用预训练的音乐分离模型完成。
解码器: 是一个基于扩散的Transformer，接收来自令牌的恢复嵌入，重建VAE潜在特征，最后由VAE解码器生成48kHz波形。它支持使用混合令牌或双轨令牌进行重建，以适应LeLM的不同输出。

三阶段训练范式: 该范式由自动化音乐美学评估框架引导，旨在持续注入音乐性先验。

阶段一：美学条件预训练: 在大规模数据（~50万小时歌曲）上训练混合语义LM。训练数据根据美学评估框架的分数被分为五个音乐性等级（Tier），并将对应的等级标签作为额外条件注入，以缓解一对多映射并引导模型学习音乐性先验。采用渐进增加序列长度的策略。
阶段二：解耦渐进式后训练: 首先，仅对混合语义LM进行对齐。监督微调 (SFT) 使用美学框架筛选出的Top 0.5%高质量数据，建立高质量生成基线。大规模离线DPO 针对可控性，通过生成大量候选对并基于歌词对齐（PER）、提示一致性和音乐性得分构建偏好对，重点惩罚歌词幻觉。闭环半在线DPO 针对音乐性，使用周期性同步权重的生成器动态采样新数据，构建仅关注音乐性差距的偏好对，并采用混合验证协议防止奖励黑客。
阶段三：美学条件模块扩展: 冻结已对齐的混合语义LM，仅训练特定音轨LM以建模双轨令牌。训练初期使用真实歌曲混合令牌作为教师强制输入，后期引入声学增强策略：使用仅2-4步扩散步骤解码器生成的低保真音频提取混合令牌作为输入，迫使模型学习恢复和补充精细声学细节。

💡 核心创新点

分层LeLM架构: 明确提出将全局语义规划（混合令牌）与局部声学精化（人声/伴奏令牌）解耦到两个协作的LM中，通过并行预测避免了交错预测的序列长度爆炸问题，同时保证了全局协调性。
美学引导的渐进式训练范式: 提出了一个三阶段训练流程（预训练、后训练、模块扩展），核心创新在于后训练阶段的解耦设计：先通过SFT和离线DPO提升可控性，再通过闭环半在线DPO提升音乐性，旨在缓解多目标优化中的梯度冲突。
自动化美学评估框架的应用: 设计了一个基于MuQ的多层次音乐美学评估框架，不仅在预训练和扩展阶段作为数据条件和筛选器，还在后训练阶段作为SFT的数据过滤器和DPO的奖励信号/验证工具，实现了对音乐性先验的持续注入。

📊 实验结果

论文在主观和客观评测上与商业及开源系统进行了全面对比，并展示了各训练阶段和设计模块的效果。

与SOTA系统对比 (Table I): LeVo 2在所有六个主观维度上超越了所有开源基线。在多个维度上接近商业系统Suno v5和Mureka v8，并全面超越了MiniMax Music 2.5+。在客观评测中，其情感控制得分(8.72)为所有系统最高，音素错误率(PER)在开源模型中最低(8.55%)，但流派和乐器准确率略低于ACE-Step 1.5。

Model	Subjective Evaluation (MOS ↑)	Gemini Evaluation ↑	ASR
Commercial Systems (Closed-source)	OVL	MEL	ARR
Suno v5	5.72	6.38	6.55
Mureka v8	5.69	6.31	6.55
MiniMax Music 2.5+	5.22	5.87	6.02
Open-source Systems
ACE-Step 1.5	4.76	5.71	5.82
HeartMuLa	4.07	4.94	5.05
DiffRhythm 2	2.95	4.05	4.86
YuE	3.05	4.12	4.17
LeVo	3.71	4.47	4.71
LeVo 2 (Ours)	5.48	6.12	6.42

训练阶段有效性验证 (Table II): 实验展示了LeVo 2从预训练到最终模型的逐步能力提升。预训练模型性能较低。SFT显著提升了主观音乐性指标。离线DPO在提升可控性（PER从10.59%降至9.19%）的同时未损害音乐性。半在线DPO进一步全面提升了艺术性指标。最终的模块扩展大幅提升了人声和伴奏音质（SQ-V, SQ-A），完成了整个训练流程。

Training Stage	Subjective Evaluation (MOS ↑)	Gemini Evaluation ↑	ASR
	OVL	MEL	ARR
Pre-training Only	4.61	5.26	5.57
+ SFT	5.02	5.62	5.97
+ Offline DPO	5.12	5.77	6.11
+ Semi-Online DPO	5.37	6.03	6.34
+ Modular Ext. (LeVo 2)	5.48	6.12	6.42

后训练策略分析 (Table III): 与单目标优化或多目标混合训练相比，本文提出的“先离线DPO（可控性）后半在线DPO（音乐性）”的渐进解耦策略实现了最优平衡，取得了最高的主观音乐性指标（OVL 5.37, MEL 6.03, ARR 6.34）和优秀的可控性（PER 9.22%）。

Post-Training Strategy	Subjective Evaluation (MOS ↑)	Gemini Evaluation ↑	ASR
	OVL	MEL	ARR
Pre-training + SFT	5.02	5.62	5.97
Single-Dimension Optimization
Offline DPO (Musicality)	5.23	5.86	6.15
Offline DPO (Lyrics Alignment)	4.77	5.64	5.96
Offline DPO (Prompt Consistency)	4.71	5.56	5.86
Multi-Dimensional Optimization Baselines
Mixed Training	4.91	5.73	6.01
Interpolation	5.17	5.80	6.13
Ablations of Progressive Strategy
Semi-Online DPO	5.29	5.96	6.26
Offline DPO + Offline DPO (Mus.)	5.21	5.87	6.21
Ours (Offline DPO + Semi DPO)	5.37	6.03	6.34

消融研究 (Table IV): 验证了模型缩放、数据缩放、纯器乐数据、美学引导策略（包括美学条件和音乐感知CFG）以及架构设计（延迟模式、特定音轨LM、声学增强）的必要性。例如，移除延迟模式导致PER飙升至47.10%，移除特定音轨LM则严重损害SQ-V和乐器准确率。

Models	Subjective Evaluation (MOS ↑)	Gemini Evaluation ↑	ASR
	OVL	MEL	ARR
LeVo 2	5.48	6.12	6.42
Scaling & Data
w/o Model Scaling	5.30	5.99	6.24
w/o Data Scaling	5.27	5.92	6.14
w/o Pure Instrumental Data	5.32	5.94	6.22
Aesthetics-Guided Strategy
w/o Musicality-Aware CFG	5.33	5.98	6.18
w/o Aesthetics Guidance	4.92	5.59	5.48
Architecture Design
w/o Delay Pattern	4.65	4.93	5.01
w/o Track-Specific LM	4.89	5.32	5.47
w/o Acoustic Augmentation	5.43	6.12	6.41

⚖️ 评分理由

创新性 (1.5/2)：架构和训练范式的设计逻辑清晰且有效，解决了长序列生成和多目标对齐的实际问题。但核心组件（Transformer, VQ, Diffusion, DPO）均为成熟技术，创新主要体现在工程化的组合与针对性优化上，缺乏底层建模思想的突破。
技术严谨性 (1.2/1.5)：方法描述详尽，消融实验充分，验证了各个设计选择的合理性。然而，对于一些关键设计选择（如延迟步数\(k\)的具体值、美学评估框架的训练数据细节、半在线DPO的同步频率和混合验证协议）的依据和影响分析不够深入，部分公式（如延迟模式）的表述可以更清晰。
实验充分性 (1.8/2.0)：实验极其全面。提供了与多个顶级商业系统和开源模型的六维主观评测及客观评测。进行了详细的阶段性分析（Table II）、策略对比消融（Table III）和模块消融（Table IV），覆盖了缩放、数据、策略和架构多个方面。评测规模大（各200首歌，20位专家），置信区间小，结论可靠。缺乏对失败案例的定性分析是一个小遗憾。
清晰度 (1.5/1.5)：论文结构严谨，从问题定义、方法介绍到实验分析逻辑连贯。图表（图1、图2、图3）清晰地辅助说明了架构和流程。虽然部分技术细节（如Music Codec训练、延迟模式）的描述可更详尽，但整体可读性很高。
影响力 (1.2/1.5)：在音乐生成这一热门应用领域，LeVo 2作为一个强基线，其代码和模型的开源将对后续研究产生积极影响。其分层架构和渐进式后训练策略为解决相关问题提供了有价值的工程范式。但方法的通用性有限，主要针对歌曲生成任务。
开源 (1.5/1.5)：提供了完整的模型权重和推理代码仓库（https://github.com/levo-demo/LeVo），并附有演示页面。这对于音乐生成领域的研究可复现性和后续开发具有极高的价值。这是本文的一个重大优点。
可复现性 (1.2/1.5)：代码和权重已开源，训练配置（GPU、批大小、步数等）和推理参数（top-k, temperature, CFG scale）描述详细。然而，论文所用的大规模训练数据（约50万小时）及其处理流水线（SongPrep）未开源，因此完整复现训练过程是不现实的，仅能复现推理和基于开源组件的微调。
工程/实践价值 (1.0/1.0)：这是一篇高度以应用为导向的工程论文。它提供了一个完整、可用、性能先进的端到端歌曲生成解决方案，从数据处理、模型架构、多阶段训练到推理优化都有详细设计和实践验证，对产业界有直接的参考和借鉴价值。

🚨 局限与问题

数据依赖性与标注噪声：论文坦诚依赖自动标注（如歌词识别、结构识别、情感标签），并承认这些标签的噪声影响了模型可控性的上限。这是一个根本性限制，未来的改进需要更高质量的人工标注数据或更鲁棒的自动标注方法。
训练数据不可复现：尽管代码开源，但核心的50万小时训练数据集未公开，这限制了学术界对模型进行深入分析、从头复现训练或进行公平比较的可能性。
与商业系统差距的根源分析不足：论文观察到LeVo 2在流派和乐器控制上与ACE-Step 1.5存在差距，并将其归因于数据标注的规模和精度。但这更多是一个推测，缺乏深入分析，例如是否ACE-Step的架构或训练策略本身在某些方面更优。
缺乏失败案例与边界分析：实验结果主要展示整体性能指标。缺乏对生成失败或质量欠佳案例的定性分析，例如模型在处理极端复杂的和声进行、小众音乐风格或超长歌曲结构时的表现和局限性。这使得读者难以判断模型的鲁棒性边界。
关键超参数和设计选择的依据：论文中的一些关键参数选择，如延迟步数\(k\)、美学评估框架训练数据的来源和分布、半在线DPO的生成器同步频率（100步），其选择依据和敏感度分析未在论文中充分展示或讨论。
商业化系统对比的时效性：与Suno v5等商业系统的对比受限于其黑箱状态和评测时间点（2026年5月）。商业系统持续快速迭代，今天的对比结果可能在短期内就不再成立。

← 返回 2026-06-30 语音/音乐/音频论文速递

📄 LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文