📄 Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation
#音乐生成 #自回归模型 #音频大模型 #预训练 #模型评估
✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频大模型 #预训练 | arxiv
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Jiafeng Liu (中央音乐学院)
- 通讯作者:Maosong Sun (清华大学)
- 作者列表:Jiafeng Liu (中央音乐学院), Yuanliang Dong (中央音乐学院), Hongjia Liu (中央音乐学院), Yuqing Cheng (中央音乐学院), Zhancheng Guo (中央音乐学院), Huijing Liang (中央音乐学院), Wenbo Zhan (中央音乐学院), Yuming Sun (中央音乐学院), Xiaobing Li (中央音乐学院), Feng Yu (中央音乐学院), Maosong Sun (清华大学)
💡 毒舌点评
亮点:大胆摒弃了音乐生成中常见的“语义token+声学解码器”或“扩散模型”的双阶段异构范式,提出并验证了在一个统一的64层RVQ声学token层次中完成从结构到高保真度生成的可能性,这种思路的简洁性和统一性本身就是一个重要的理论贡献。 短板:虽然人类评估结果亮眼,但论文避开了与当前最强开源模型(如MusicGen, Udio等)在标准客观指标(如FAD, CLAP score)上的直接对比,使得“开源最强”的宣称在客观比较维度上显得不够硬核;其核心发现“文本对齐可在纯声学模型中涌现”极度依赖精巧的训练技巧(Task 0),这暗示了纯声学路径的脆弱性,并未真正消解对显式语义建模的需求。
🔗 开源详情
- 代码:https://github.com/Khala-Music-AI/Khala
- 模型权重:论文中提及模型检查点可用,但未明确给出具体托管平台链接,检查点随代码仓库发布。
- 数据集:训练使用了中央音乐学院的内部音乐数据集,包含约1800万条曲目(约120万小时音频)。该数据集未公开。
- Demo:论文中未提及。
- 复现材料:论文详细描述了模型架构(64层RVQ编码器、1.6B骨干模型、1.8B超分模型)、训练策略(分阶段训练、混合注意力训练、骨干初始化)、训练配置(AdamW优化器、2000步预热、全局批次大小256、8台H800服务器/64块GPU、梯度累积4步)等复现所需信息,但未提供独立的配置文件或附录下载链接。
- 论文中引用的开源项目:
- 音乐生成/语音合成系统:AudioLM, MusicLM, Jukebox, SongBloom, LeVo, HeartMuLa, ACE-Step 1.5。论文中未提供这些项目的具体链接。
- 神经音频编解码器:SoundStream, EnCodec, HiFi-Codec, DAC, WavTokenizer, MuCodec, X-Codec, HeartCodec。论文中未提供这些项目的具体链接。
- 分词器/ASR模型:Llama 3.1 8B 分词器(论文引用了论文),Qwen3-ASR-1.7B。论文中未提供具体链接。
补充信息
- [模型架构] 补充:论文在第3.2节明确给出了选择64层RVQ的量化依据:初步实验表明16层设置仍存在明显失真,而64层在测试集上达到了平均SDR(信失比)为9.116的重建质量,被认为是保真度与下游建模复杂度之间的合理折中。此外,在第7节讨论中,作者提及曾尝试探索一个统一执行粗生成与超分辨率的模型,但发现在当前相同的参数预算下,将两阶段解耦能获得更好的效果,这为其两阶段设计提供了实验依据,而非纯粹的理论选择。
- [实验结果] 补充:第6.1节详细说明了人类评估的规模:使用了10个提示词(涵盖歌词引导和文本引导场景),最终在过滤后得到了766个有效投票。论文同时强调了BT-Elo和平均总体评分的互补性:前者反映直接对比中的胜率,后者反映绝对质量评分。此外,在第6.2节解释消融实验指标时,论文明确指出ASR的WER并非人类感知歌词正确性的绝对度量,生成的人声在ASR转写错误时可能仍可被人理解,因此主要将其作为相对的客观代理指标与人类评分一同报告。
- [细节详述] 补充:第5.1节提到了用于稳定64层RVQ训练的“黄金比例多尺度STFT设计”的具体FFT尺寸为:[78, 126, 206, 334, 542, 876, 1418, 2296]。此外,第5.2节明确了骨干模型使用的文本分词器是Llama 3.1 8B tokenizer,词汇表大小为128K。还明确了骨干模型训练序列长度16384对应于交错q0/q1后的8192个时间步,约可覆盖381秒(约6分钟)的音频,而SR模型训练序列长度为8192。
- [评分理由] 补充:论文在讨论部分(第7节)明确指出,当前的两阶段设计被视为在现有计算预算下的实际选择,而非范式的根本局限。一个足够大的模型,配合适当的训练混合,理论上可以将粗生成和细粒度精修吸收进一个统一的模型中。因此,当前的两阶段系统被定位为通向更一体化声学token语言模型的“中间步骤”。
📌 核心摘要
- 问题:当前高质量音乐生成系统通常将音乐结构和声学高保真度分别在不同的表示空间中处理(如语义token+扩散模型),这增加了系统复杂性。Khala旨在探索是否能在单一的、统一的声学token层次中逐步建模结构和细节。
- 核心方法:构建了一个64层残差向量量化(RVQ)的深度声学token表示,并提出了两阶段“由粗到细”的生成框架。第一阶段由骨干语言模型自回归生成全轨道的低层(q0, q1)粗声学token作为“脚手架”;第二阶段由超分辨率(SR)模型在该脚手架的基础上,并行地、逐层地预测剩余的62个高细节声学token层(q2到q63),整个过程在同一token空间内完成。
- 新意:与分离“语义”与“声学”的主流方法不同,Khala将结构与保真度统一在一个深层声学token层次中。其超分辨率模型采用“混合注意力训练”:在训练时,对第一层token(q0)的预测使用因果注意力(Task 0)以保证歌词时间对齐,而对其他层的预测使用全注意力(Task 1)以优化声学细节。
- 实验结果:在包含8个系统(4商用+4开源)的大规模人类盲听评估中,Khala在BT-Elo排名(1510.9)和平均总体得分(3.3978)上均位列开源模型第一,并略优于部分商用系统(如MiniMax 2.5 Plus)。消融实验证明,骨干模型初始化SR模型(CN PER从22.25%降至16.67%)和引入Task 0(CN PER从78.67%降至21.15%)对提升歌词可懂度至关重要。
- 实际意义:证明了统一、纯声学token路径在高质量音乐生成中的可行性和竞争力,为构建更简洁、统一的音乐生成系统指出了新方向。
- 主要局限性:模型仍采用两阶段设计而非完全统一;依赖于一个未公开的内部大规模数据集;缺乏在标准客观音乐生成指标(如FAD)上的详细对比;其核心对齐发现(Task 0)可能削弱了“纯声学模型”主张的纯粹性。
🏗️ 模型架构
Khala的整体架构如图2所示,分为两个主要阶段,均基于Transformer语言模型,并共享同一个64层RVQ声学token空间。
图2:提出的两阶段音乐生成框架概览。 骨干语言模型首先生成全轨道的粗声学token,然后超分辨率模型在相同的token空间内,逐层细化以恢复更高保真度的声学细节。
输入与表示:
- 文本条件 (T):包括提示词、目标时长、歌词。使用Llama 3.1 8B分词器进行分词。
- 声学Token层次 (q0, q1, …, q63):由64层RVQ神经音频编解码器生成。每一层量化上一层的残差,形成从粗糙到精细的层次化表示。帧率约为21.5帧/秒。
骨干模型:
- 功能:生成音频的“低层声学脚手架”。
- 输入序列:
[文本T] + [q0^1, q1^1, q0^2, q1^2, ..., q0^t, q1^t, ...],即文本条件后,按时间顺序交错插入第一层(q0)和第二层(q1)的token。 - 结构:共享的Transformer骨干,约1.6B参数(24层,2048隐藏维度)。采用标准因果掩码进行下一token预测训练。
- 输出:在推理时自回归生成完整音轨的q0和q1层序列。
超分辨率模型:
- 功能:基于低层脚手架,预测剩余62个高细节声学层(q2到q63),恢复高保真度。
- 核心机制:对于每一个目标层qN(N≥2),模型输入文本条件T和之前所有低层token的总和
Σ(i<N) qi,并行预测目标层qN在所有时间步上的完整序列。这使得推理成为固定的62步(每层一步)过程。 - 混合注意力训练:
- Task 0 (对齐任务):预测q0层,使用因果注意力掩码。输入为
[T, q0^{<t}],目标为q0^t。此任务强制模型学习文本与声学时间轴的对齐。 - Task 1 (细化任务):预测qN层(N≥2),使用全注意力掩码。输入为
[T, Σ(i<N) qi],目标为整个qN序列。此任务专注于在给定脚手架下填充细节。
- Task 0 (对齐任务):预测q0层,使用因果注意力掩码。输入为
- 结构:类似骨干模型,但参数量略大(约1.8B),因为其词汇表扩大以覆盖所有声学层token。
声学编解码器(基础):
- 架构结合了DAC(编码器-解码器骨干)和EnCodec(RVQ公式)的设计。编码器79M参数,解码器178M参数,量化器8.4M参数。训练使用了重建损失、对抗损失和多尺度STFT损失,并采用了强判别器(12M参数)和黄金比例多尺度STFT设计以稳定64层训练。
💡 核心创新点
- 统一的深度声学Token层次建模:构建64层RVQ声学token,将音乐生成所需的“结构”与“高保真细节”统一在同一表示空间中逐步建模,挑战了必须使用独立语义阶段或扩散解码器的主流范式。
- 两阶段“由粗到细”的超分辨率生成:在推理时,骨干模型自回归生成粗token,超分辨率模型则并行、逐层地精炼所有时间步的高细节token。这结合了自回归模型在结构生成上的优势与并行模型在细节填充上的效率,最终实现了固定的62步推断,优于对所有层进行完全自回归的极低效率。
- 混合注意力训练以实现对齐涌现:发现并验证了通过在SR模型中引入对第一声学层(q0)的因果预测任务(Task 0),可以在纯声学token模型中诱导出文本-人声对齐能力,无需单独的语义token阶段。全注意力用于细节细化,因果注意力用于时间对齐,两者结合解决了纯声学模型难以对齐的难题。
- 骨干-超分辨率迁移初始化:证明了从已训练好的骨干模型初始化SR模型,能显著提升SR模型的收敛速度和最终质量,表明骨干模型学到的粗结构先验可迁移至细粒度优化。
🔬 细节详述
- 训练数据:中央音乐学院内部数据集,约18M条音轨,约1.2M小时。包含约4.1M带歌词人声、4.8M纯器乐、9.7M未标注。涵盖主要语言,全部重采样至44.1kHz。论文中未说明数据获取方式。
- 损失函数:
- 编解码器:波形重建损失、对抗损失、多尺度STFT损失。
- 骨干/SR语言模型:标准的下一token预测损失(交叉熵损失)。
- 训练策略:
- 优化器:AdamW。
- 超参数:warmup 2000步,全局batch size 256,梯度累积步长4。
- 硬件:8台H800服务器(共64块GPU)。
- 骨干模型:序列长度16384(对应约8192个时间步,约381秒),在交错的q0/q1 token上进行训练。
- SR模型:序列长度8192。采用固定的任务采样比例混合训练Task 0和Task 1。
- 关键超参数:
- 声学表示:64层RVQ,帧率~21.5 Hz。
- 语言模型:共享Transformer骨干,24层,隐藏维度2048,32个注意力头,8个KV头,FFN维度5632。总参数约1.6B(骨干)/1.8B(SR)。
- 推理细节:
- 骨干模型自回归生成全轨的q0和q1序列。
- SR模型分62步运行,第i步预测q_{i+1}层,条件为文本和q0到q_{i}层之和,在时间维度上并行预测。未说明具体解码温度、采样策略。
- 稳定训练技巧:在64层RVQ编解码器训练中,使用约25倍于常规的强判别器(12M参数),以及黄金比例多尺度STFT设计(使用不规则FFT尺寸),以稳定对抗训练,防止GAN崩溃。
📊 实验结果
论文核心评估基于大规模人类盲听对比(表1)和关键组件消融(表2)。
表1:在大规模盲听配对人类评估场中的主要结果。 我们报告BT推导的Elo评分和平均总体评分。“Com.”表示商业系统,“Open”表示开源系统。Khala在两种评价下均排名开源系统第一。
| Rank | Src. | Model | BT-derived Elo |
|---|---|---|---|
| 1 | Com. | Mureka v8 | 1689.3 |
| 2 | Com. | Suno v5 | 1644.2 |
| 3 | Com. | Suno v4.5 | 1580.7 |
| 4 | Open | Khala | 1510.9 |
| 5 | Com. | MiniMax 2.5 Plus | 1509.2 |
| 6 | Open | ACE-Step 1.5 | 1470.9 |
| 7 | Open | HeartMuLa | 1421.8 |
| 8 | Open | LeVo | 1173.1 |
| Rank | Src. | Model | Overall Score |
|---|---|---|---|
| 1 | Com. | Suno v5 | 3.9552 |
| 2 | Com. | Mureka v8 | 3.8583 |
| 3 | Com. | Suno v4.5 | 3.5907 |
| 4 | Com. | MiniMax 2.5 Plus | 3.5771 |
| 5 | Open | Khala | 3.3978 |
| 6 | Open | ACE-Step 1.5 | 3.3540 |
| 7 | Open | HeartMuLa | 3.2639 |
| 8 | Open | LeVo | 2.4515 |
- 关键结论:Khala在开源模型中排名第一,且BT-Elo分数略高于部分商用模型(MiniMax 2.5 Plus)。这证明了其纯声学token路径的竞争力。
表2:对齐与初始化的消融实验结果。 主观音频质量与歌词可懂度采用1-5分评级。CN PER、CN CER、EN WER为基于ASR的歌词错误率;越低越好。
| Ablation | Setting | Audio Quality ↑ | Lyric Intell. ↑ | CN PER ↓ | CN CER ↓ | EN WER ↓ |
|---|---|---|---|---|---|---|
| Backbone Init. | w/o Init | 3.01 | 3.04 | 22.25 | 25.73 | 26.96 |
| w/ Init | 3.26 | 3.40 | 16.67 | 20.00 | 19.90 | |
| Task 0 | w/o Task 0 | 2.62 | 1.34 | 78.67 | 84.47 | 84.97 |
| w/ Task 0 | 2.73 | 2.70 | 21.15 | 24.81 | 25.15 |
- 关键结论:
- 骨干初始化:显著提升了音频质量(3.01->3.26)和歌词可懂度(3.04->3.40),并大幅降低了中英文歌词错误率。
- Task 0(因果对齐):对歌词可懂度至关重要。移除Task 0后,可懂度分数骤降(2.70->1.34),ASR错误率急剧升高(CN PER从21.15%飙升至78.67%)。这证实了在纯声学模型中,需要专门的因果目标来强制实现文本对齐。

- 图3:消融实验的示意图(推测)。展示了有无Task 0训练时,模型生成歌词对齐情况的对比。左侧无Task 0时,生成可能偏离歌词;右侧有Task 0时,生成与歌词对齐良好。此图直观地支持了表2中关于Task 0必要性的结论。
⚖️ 评分理由
- 学术质量:5.5/7:创新点明确,技术路线完整,实验设计合理(包含大规模人类评估和针对性消融)。但创新属于对现有模块(RVQ、自回归LM)的巧妙组合与范式探索,未提出全新的基础模型架构;实验部分缺乏在FAD等标准客观指标上与顶尖开源模型的详细对比,限制了其说服力。
- 选题价值:1.5/2:课题聚焦音乐生成的高保真与统一表示,具有明确的学术前沿性和应用价值。开源代码和模型对社区有贡献。
- 开源与复现加成:0.5/1:提供了代码和模型权重的GitHub链接,训练硬件和模型规模等关键细节清晰。但核心训练数据集(18M音轨)未公开,这是完全复现的重大障碍,因此仅给予中等加分。