📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

#音乐生成 #音频生成 #多模态模型 #数据增强 #低资源

8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5

🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv

👥 作者与机构

  • 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou
  • 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.)
  • 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author)

💡 毒舌点评

这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。

📌 核心摘要

SketchSong是一个用于完整歌曲生成的分层框架,旨在解决现有模型在全局编排规划和多声部精细建模方面的不足。其核心是两个正交的设计:1)歌曲级草图规划:在第一阶段自回归语言模型中,模型首先预测一个由离散token构成的紧凑草图序列(基于MuQ-MuLan特征构建,代表歌曲的高级语义和发展轮廓),然后再生成混合音频token,从而实现“先规划,后生成”的粗到细过程。2)细粒度多轨道建模:第二阶段语言模型将混合音频细化为人声、贝斯、鼓和其他乐器四个明确的音轨,以更精确地捕捉各音乐部分的角色与交互。框架采用两阶段训练策略:先训练草图预测,再训练草图条件下的音频生成。实验表明,在同等设置下,SketchSong相比强基线LeVo在客观指标(FAD, MuQ-T, PER, 美学评分)和主观MOS测试上均有提升,且在部分指标上与经过后训练的开源系统(如DiffRhythm 2, ACE-Step 1.5)具有竞争力。消融研究证实,草图规划主要改善歌曲的长期结构、发展和音乐性,而多轨道建模主要提升编排丰富度和制作品质。当前系统的局限在于未采用后训练优化,且非人声音轨共享解码器,限制了生成质量的上限。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及。
  • 数据集:论文中提及训练数据集为100万首歌曲(约54,000小时),使用SongPrep流程进行预处理。论文未明确说明该数据集是否公开及获取链接。
  • Demo:论文中未提及。
  • 复现材料:论文中提及了部分训练配置,但未提供可公开下载的完整复现材料。具体提及的配置信息包括:
    • 训练硬件:64个NVIDIA A100 GPU。
    • 语言模型训练步数:第一阶段(草图预测)与第二阶段(草图条件混合音频生成)各训练100k步;第二阶段多轨道模型训练50k步。
    • 残差向量量化器(RVQ)训练:代码本大小4096,嵌入维度512,训练50个epoch,批次大小512。
    • 所有训练阶段使用4k步预热。
    • 非核心组件(如波形解码器)使用LeVo的开源检查点进行初始化。
  • 论文中引用的开源项目:
    1. LeVo:论文中的主要基线和框架基础。
      • 项目地址:https://github.com/TMElyralab/LeVo
    2. Demucs:用于音轨分离(vocals, bass, drums, other)。
      • 项目地址:https://github.com/facebookresearch/demucs
    3. MuQ-MuLan:用于提取草图token的音频特征及文本-音频相似度评估。
      • 项目地址:https://github.com/Tencent-Audio-Composition-Team/MuQ
    4. SongPrep:论文提及的数据集预处理流程。
      • 项目地址:https://github.com/Tencent-SnapAI/SongPrep
    5. Whisper-large-v2:用于计算PER(音素错误率)时的语音识别。
      • 项目地址:https://github.com/openai/whisper
    6. Qwen2.5-Omni:用于为歌曲生成开放式文本描述。
      • 项目地址:https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者归属推断)
    7. wav2vec 2.0:用于歌词与音频的对齐。
      • 项目地址:https://github.com/facebookresearch/wav2vec2

标签

#序列到序列 #音乐生成 #音频生成 #多模态模型 #序列建模 #长序列建模 #音色转换 #预训练模型 #模型压缩与加速 #数据增强 #低资源 主任务标签:#音乐生成 主方法标签:#自回归生成 #序列到序列 补充标签:#预训练模型 #模型压缩与加速 #数据增强 #低资源 #多模态模型 #序列建模 #长序列建模

作者与机构

  • 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou
  • 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.)
  • 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author)

毒舌点评

这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。

核心摘要

SketchSong是一个用于完整歌曲生成的分层框架,旨在解决现有模型在全局编排规划和多声部精细建模方面的不足。其核心是两个正交的设计:1)歌曲级草图规划:在第一阶段自回归语言模型中,模型首先预测一个由离散token构成的紧凑草图序列(基于MuQ-MuLan特征构建,代表歌曲的高级语义和发展轮廓),然后再生成混合音频token,从而实现“先规划,后生成”的粗到细过程。2)细粒度多轨道建模:第二阶段语言模型将混合音频细化为人声、贝斯、鼓和其他乐器四个明确的音轨,以更精确地捕捉各音乐部分的角色与交互。框架采用两阶段训练策略:先训练草图预测,再训练草图条件下的音频生成。实验表明,在同等设置下,SketchSong相比强基线LeVo在客观指标(FAD, MuQ-T, PER, 美学评分)和主观MOS测试上均有提升,且在部分指标上与经过后训练的开源系统(如DiffRhythm 2, ACE-Step 1.5)具有竞争力。消融研究证实,草图规划主要改善歌曲的长期结构、发展和音乐性,而多轨道建模主要提升编排丰富度和制作品质。当前系统的局限在于未采用后训练优化,且非人声音轨共享解码器,限制了生成质量的上限。

方法概述和架构

SketchSong采用一个两阶段的自回归语言模型框架,构建在LeVo的架构之上,核心是引入了草图规划和四轨建模两个正交改进。

  1. 整体架构与生成流程:系统包含两个语言模型(LM),分别参数化为 \(\theta_1\) 和 \(\theta_2\)。输入为结构化歌词、可选文本描述和可选音频提示。

    • 第一阶段(\(\theta_1\)):负责歌曲级规划与混合音频生成。其处理序列被设计为:[条件表示; <s_s>; 草图token嵌入序列; <s_e>; 混合音频token]。模型首先从条件生成草图token序列 \(\mathbf{s}\),再以 \(\mathbf{s}\) 为条件生成混合音频token序列 \(\mathbf{x}_{\text{mix}}\)。
    • 第二阶段(\(\theta_2\)):负责多轨细化。接收相同的条件输入,以及第一阶段生成的 \(\mathbf{x}_{\text{mix}}\)。其输入序列将四轨token(人声、贝斯、鼓、其他)的嵌入求和,与条件序列拼接后,再与从冻结的第一阶段模型提取的隐藏状态 \(\tilde{\mathbf{H}}_1\)(丢弃草图部分)在特征维度拼接,经MLP映射后输入。模型输出后,经四个独立的线性头预测四个轨道的token分布。
  2. 歌曲级草图规划组件:

    • 草图token构建:离线进行。对训练歌曲,以5秒非重叠窗口提取MuQ-MuLan音频特征(帧率0.2Hz)。训练一个残差向量量化器(RVQ,4层,codebook大小4096,嵌入维度512),将特征序列量化为离散token序列。这组token编码了歌曲的高级语义信息,如段落发展、密度变化和动态推进。
    • 草图条件生成与训练:在第一阶段LM中,草图序列被插入条件与混合音频token之间。训练采用两阶段策略:
      • Phase 1:仅训练模型从条件预测草图token,损失为 \(\mathcal{L}_{\text{P1}} = \mathcal{L}_{\text{sk}}\)(草图token的交叉熵)。
      • Phase 2:训练完整的草图条件生成过程,损失为 \(\mathcal{L}_{\text{P2}} = \mathcal{L}_{\text{mix}} + \lambda_{\text{sk}} \mathcal{L}_{\text{sk}}\),其中 \(\mathcal{L}_{\text{mix}}\) 是混合音频token的交叉熵损失。这迫使模型学会利用草图作为规划脚手架。
    • 可控性:推理时,草图可由模型预测(默认模式)或用户提供(控制模式),实现了对歌曲整体风格和发展的显式控制。
  3. 细粒度多轨道建模组件:

    • 目标与动机:将第二阶段从传统的双轨(人声-伴奏)扩展为四轨(人声、贝斯、鼓、其他),以更明确地建模不同音乐部分的功能与相互作用。
    • 草图信息注入:为保持两阶段间的连贯性,在第二阶段训练时,将第一阶段模型在真实草图和混合音频下的最后一层隐藏状态(丢弃对应草图的段后得到 \(\tilde{\mathbf{H}}_1\))作为条件,与第二阶段自身的输入拼接。这使得草图规划信息能够间接指导多轨生成。
    • 训练:第二阶段模型仅由四轨预测的平均交叉熵损失 \(\mathcal{L}_{\text{trk}}\) 监督训练,第一阶段模型在此阶段保持冻结以提供隐藏状态条件。
  4. 解码与混合:最终波形重建复用LeVo的MuCodec管道。关键局限:人声流使用人声编解码器解码,而贝斯、鼓和其他流共享LeVo的伴奏编解码器解码。解码后,各轨道进行简单的幅度缩放(各1/3)混音。这一设计是当前系统的主要短板之一。

核心创新点

  1. 歌曲级草图规划:通过引入低帧率(0.2Hz)的离散草图token序列,在生成详细音频之前提供了一个显式的、高语义层次的歌曲编排计划,实现了“先规划,后生成”的粗到细生成范式。
  2. 细粒度四轨建模:将歌曲生成模型从传统的二元分解(人声/伴奏)扩展为四个功能明确的音轨(人声、贝斯、鼓、其他),旨在更精确地捕捉和生成各音乐部分的独立角色及其在编排中的交互,提升了编排丰富度。
  3. 两阶段框架的有效整合:将上述两个设计正交地整合到一个两阶段自回归框架中。消融研究表明二者互补:草图规划主要改善时间维度上的结构与发展,多轨建模主要改善音轨维度上的丰富度与制作品质。

实验结果

主要对比结果(表1:客观指标)

方法FAD ↓MuQ-T ↑PER ↓AudioBox Aesthetics ↑SongEval Aesthetics ↑

| YuE | 4.16 | 0.17 | 45.16 | 7.02 / 7.85 / 3.34 / 3.16 | 3.21 / 3.16 / 3.08 | | DiffRhythm 2 | 3.49 | 0.40 | 25.6 | 7.51 / 8.19 / 3.95 / 3.67 | 3.79 / 3.68 / 3.54 | | ACE-Step 1.5 | 2.62 | 0.27 | 24.5 | 7.57 / 8.21 / 4.16 / 4.11 | 4.09 / 4.04 / 3.73 | | LeVo (released) | 3.79 | 0.24 | 9.3 | 7.71 / 8.40 / 3.92 / 3.75 | 3.83 / 3.66 / 3.58 | | LeVo (our trained) | 3.73 | 0.29 | 32.3 | 7.61 / 8.35 / 3.52 / 3.42 | 3.38 / 3.36 / 3.25 | | + Sketch planning | 3.05 | 0.33 | 29.7 | 7.72 / 8.31 / 3.49 / 3.69 | 3.65 / 3.60 / 3.51 | | + Multi-track modeling | 3.82 | 0.29 | 31.4 | 7.58 / 8.43 / 3.88 / 3.35 | 3.36 / 3.28 / 3.20 | | SketchSong | 3.06 | 0.32 | 27.8 | 7.76 / 8.42 / 3.84 / 3.59 | 3.67 / 3.65 / 3.48 |

注:CE/CU/PC/PQ为AudioBox Aesthetics指标;Coh./Mus./Mem./Cla./Nat.为SongEval Aesthetics指标。

主观MOS测试结果(表2)

方法MOS ↑
OVLSSCADIRVQ
LeVo (our trained)3.603.763.623.563.82
+ Sketch planning3.643.883.903.623.88
+ Multi-track modeling3.583.703.603.783.78
SketchSong3.683.843.873.843.80

注:OVL/SSC/AD/IR/VQ分别为整体质量、歌曲结构清晰度、编排发展、乐器丰富度和人声质量。

关键发现:

  1. 主实验对比:与公平训练的LeVo基线相比,SketchSong在FAD(3.73→3.06)、PER(32.3→27.8)、CE(7.61→7.76)等指标上取得最佳。在部分美学指标(CU, PC, PQ)上达到次优或接近最优。值得注意的是,所有对比的开源系统(除YuE外)均使用了后训练,而SketchSong未使用,这凸显了其基础架构的有效性。
  2. 消融研究:
    • 单独加入草图规划(+Sketch planning)在FAD、CE、CU、Mus.、Mem.上取得最大提升,验证了其对长期结构和音乐性的贡献。
    • 单独加入多轨建模(+Multi-track modeling)主要提升PC(3.52→3.88)和IR(MOS:3.56→3.78),但对FAD改善有限甚至略降,论文归因于共享解码器和简单混音的限制。
    • 完整的SketchSong结合了二者优势,在多数指标上达到���优平衡。
  3. 案例研究:
    • 频谱图可视化:定性展示了SketchSong生成的音频中,贝斯、鼓等轨道频率角色分离更清晰,且不同段落(主歌、副歌)的编排发展和动态变化更明显。
    • 草图可控性:通过替换草图为参考歌曲(抒情民谣或摇滚)的草图,在相同文本提示下,生成音频的风格和能量被显著改变,证明了草图作为控制接口的有效性。

细节详述

评分理由

  • 创新性 (1.5/2):问题定义清晰,提出的“草图规划”和“细粒度四轨建模”两个正交设计动机明确,且能有效结合。草图规划作为中间规划层是当前音频生成中的一个值得关注的方向。然而,多轨建模并非全新概念(如JEN-1, StemGen),其创新更多在于在完整歌曲生成上下文中的应用和与草图规划的结合。
  • 技术严谨性 (1.2/1.5):方法描述清晰,训练流程(两阶段训练)和架构设计(隐藏状态注入)有详细说明。但存在明显的技术妥协:第二阶段多轨模型解码时仍共享为混合信号训练的伴奏编解码器,这与“细粒度建模”的声称存在矛盾,削弱了技术完整性。论文指出了此局限,但仍是方法上的一个显著弱点。
  • 实验充分性 (1.3/2):实验设计较为全面。设置了公平的基线(重训LeVo),包含了多个强开源系统对比。提供了客观指标、主观MOS、消融研究、案例研究(频谱图和可控性)。然而,在与开源系统对比时,未能控制“后训练”这一关键变量,使得对比不完全公平(尽管论文明确说明了)。部分指标(如PER)与最优系统仍有差距。消融实验有力,但“+Multi-track”变体对FAD的负面影响需要更深入的分析。
  • 清晰度 (1.6/2):论文结构清晰,逻辑连贯。方法部分从整体框架到两个核心组件,再到训练推理,层次分明。图表(如图2框架图)对理解有帮助。术语定义清晰。
  • 影响力 (1.5/2):对音乐生成社区有明确贡献,提出的分层规划与细粒度建模思路可能影响后续工作。但作为一篇系统性工作,其影响力可能局限于应用层面的改进,缺乏理论突破。在缺乏完全自洽的解码方案和后训练的情况下,其最终性能上限有待进一步验证。
  • 开源 (0.2/1.5):非常弱。论文未开源代码、模型权重,也未公开数据集。仅提供了训练配置的详细描述和引用了一系列开源工具。这对复现和公平比较造成巨大障碍。
  • 可复现性 (1.3/1.5):尽管未开源核心资源,但论文提供了详尽的训练细节(硬件、步数、RVQ配置、预热等)、使用的预训练模型(LeVo解码器、Demucs、MuQ等)以及评估流程。理论上,一个具备强大工程能力且拥有大规模音乐数据的团队可以尝试复现,但成本极高。
  • 工程/实践价值 (1.4/1.5):框架设计具有实用价值,将高级规划与低级生成解耦,提供了控制接口。实验表明其效果优于强基线。主要工程缺陷(共享解码器、简单混音)在论文中被识别为未来工作,表明作者清楚其实践改进方向。

局限与问题

  1. 解码器瓶颈与声学局限:这是最大的技术局限。论文承认第二阶段生成的贝斯、鼓和其他轨道仍使用为LeVo混合信号训练的伴奏编解码器进行解码。这意味着模型虽然学到了四轨的token表示,但解码后的波形可能并未真正反映各轨道应有的声学特性(如贝斯应有的低频能量),解码后简单的幅度缩放混音也可能导致不自然的听感。这直接限制了“多轨建模”在感知质量上的收益,也解释了为什么“+Multi-track”变体在FAD上没有提升甚至略降。
  2. 缺乏后训练:论文明确指出,与对比的开源系统(DiffRhythm 2, ACE-Step)不同,SketchSong未进行任何后训练(如DPO、文本/歌词对齐优化)。这使得在PER、部分美学指标上的对比并不完全公平,也暗示了SketchSong的性能可能通过引入后训练得到进一步提升。这既是局限,也指明了明确的优化路径。
  3. “其他乐器”轨道的模糊性:将除人声、贝斯、鼓之外的所有乐器归为一个“其他”轨道,定义过于宽泛。这个轨道可能包含旋律乐器(吉他、钢琴)、和声铺底、效果音等,其内部异质性很高。模型难以对这个笼统的类别进行精细建模,可能限制了编排丰富度的上限。
  4. 实验设计与分析的深度:虽然消融研究证明了组件的有效性,但对于“+Multi-track”变体在FAD上表现不佳的解释(归因于解码和混音)稍显简略。可以进一步分析生成的多轨token在声学特征上的表现,或者进行用户研究,探究多轨建模在感知上究竟改善了什么(如层次感),又在哪些方面不足(如音色融合)。
  5. 基线比较的公平性:尽管作者重训了LeVo基线,但与使用官方发布检查点的LeVo(released)对比,以及与其他使用后训练的开源系统对比时,性能比较的解释需要谨慎。论文坦诚地指出了这一点,但这仍是影响结论强度的一个因素。
  6. 计算开销与效率:论文报告了训练硬件(64 A100),但未提供训练时间或推理速度的比较。一个包含两阶段模型、复杂输入条件(隐藏状态拼接)的框架,其推理延迟和资源消耗可能高于单阶段基线,这对实际应用是重要考量。

开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及。
  • 数据集:论文中提及训练数据集为100万首歌曲(约54,000小时),使用SongPrep流程进行预处理。论文未明确说明该数据集是否公开及获取链接。
  • Demo:论文中未提及。
  • 复现材料:论文中提及了部分训练配置,但未提供可公开下载的完整复现材料。具体提及的配置信息包括:
    • 训练硬件:64个NVIDIA A100 GPU。
    • 语言模型训练步数:第一阶段(草图预测)与第二阶段(草图条件混合音频生成)各训练100k步;第二阶段多轨道模型训练50k步。
    • 残差向量量化器(RVQ)训练:代码本大小4096,嵌入维度512,训练50个epoch,批次大小512。
    • 所有训练阶段使用4k步预热。
    • 非核心组件(如波形解码器)使用LeVo的开源检查点进行初始化。
  • 论文中引用的开源项目:
    1. LeVo:论文中的主要基线和框架基础。
      • 项目地址:https://github.com/TMElyralab/LeVo
    2. Demucs:用于音轨分离(vocals, bass, drums, other)。
      • 项目地址:https://github.com/facebookresearch/demucs
    3. MuQ-MuLan:用于提取草图token的音频特征及文本-音频相似度评估。
      • 项目地址:https://github.com/Tencent-Audio-Composition-Team/MuQ
    4. SongPrep:论文提及的数据集预处理流程。
      • 项目地址:https://github.com/Tencent-SnapAI/SongPrep
    5. Whisper-large-v2:用于计算PER(音素错误率)时的语音识别。
      • 项目地址:https://github.com/openai/whisper
    6. Qwen2.5-Omni:用于为歌曲生成开放式文本描述。
      • 项目地址:https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者归属推断)
    7. wav2vec 2.0:用于歌词与音频的对齐。
      • 项目地址:https://github.com/facebookresearch/wav2vec2

🏗️ 方法概述和架构

SketchSong采用一个两阶段的自回归语言模型框架,构建在LeVo的架构之上,核心是引入了草图规划和四轨建模两个正交改进。

  1. 整体架构与生成流程:系统包含两个语言模型(LM),分别参数化为 \(\theta_1\) 和 \(\theta_2\)。输入为结构化歌词、可选文本描述和可选音频提示。

    • 第一阶段(\(\theta_1\)):负责歌曲级规划与混合音频生成。其处理序列被设计为:[条件表示; <s_s>; 草图token嵌入序列; <s_e>; 混合音频token]。模型首先从条件生成草图token序列 \(\mathbf{s}\),再以 \(\mathbf{s}\) 为条件生成混合音频token序列 \(\mathbf{x}_{\text{mix}}\)。
    • 第二阶段(\(\theta_2\)):负责多轨细化。接收相同的条件输入,以及第一阶段生成的 \(\mathbf{x}_{\text{mix}}\)。其输入序列将四轨token(人声、贝斯、鼓、其他)的嵌入求和,与条件序列拼接后,再与从冻结的第一阶段模型提取的隐藏状态 \(\tilde{\mathbf{H}}_1\)(丢弃草图部分)在特征维度拼接,经MLP映射后输入。模型输出后,经四个独立的线性头预测四个轨道的token分布。
  2. 歌曲级草图规划组件:

    • 草图token构建:离线进行。对训练歌曲,以5秒非重叠窗口提取MuQ-MuLan音频特征(帧率0.2Hz)。训练一个残差向量量化器(RVQ,4层,codebook大小4096,嵌入维度512),将特征序列量化为离散token序列。这组token编码了歌曲的高级语义信息,如段落发展、密度变化和动态推进。
    • 草图条件生成与训练:在第一阶段LM中,草图序列被插入条件与混合音频token之间。训练采用两阶段策略:
      • Phase 1:仅训练模型从条件预测草图token,损失为 \(\mathcal{L}_{\text{P1}} = \mathcal{L}_{\text{sk}}\)(草图token的交叉熵)。
      • Phase 2:训练完整的草图条件生成过程,损失为 \(\mathcal{L}_{\text{P2}} = \mathcal{L}_{\text{mix}} + \lambda_{\text{sk}} \mathcal{L}_{\text{sk}}\),其中 \(\mathcal{L}_{\text{mix}}\) 是混合音频token的交叉熵损失。这迫使模型学会利用草图作为规划脚手架。
    • 可控性:推理时,草图可由模型预测(默认模式)或用户提供(控制模式),实现了对歌曲整体风格和发展的显式控制。
  3. 细粒度多轨道建模组件:

    • 目标与动机:将第二阶段从传统的双轨(人声-伴奏)扩展为四轨(人声、贝斯、鼓、其他),以更明确地建模不同音乐部分的功能与相互作用。
    • 草图信息注入:为保持两阶段间的连贯性,在第二阶段训练时,将第一阶段模型在真实草图和混合音频下的最后一层隐藏状态(丢弃对应草图的段后得到 \(\tilde{\mathbf{H}}_1\))作为条件,与第二阶段自身的输入拼接。这使得草图规划信息能够间接指导多轨生成。
    • 训练:第二阶段模型仅由四轨预测的平均交叉熵损失 \(\mathcal{L}_{\text{trk}}\) 监督训练,第一阶段模型在此阶段保持冻结以提供隐藏状态条件。
  4. 解码与混合:最终波形重建复用LeVo的MuCodec管道。关键局限:人声流使用人声编解码器解码,而贝斯、鼓和其他流共享LeVo的伴奏编解码器解码。解码后,各轨道进行简单的幅度缩放(各1/3)混音。这一设计是当前系统的主要短板之一。

图1

图2

💡 核心创新点

  1. 歌曲级草图规划:通过引入低帧率(0.2Hz)的离散草图token序列,在生成详细音频之前提供了一个显式的、高语义层次的歌曲编排计划,实现了“先规划,后生成”的粗到细生成范式。
  2. 细粒度四轨建模:将歌曲生成模型从传统的二元分解(人声/伴奏)扩展为四个功能明确的音轨(人声、贝斯、鼓、其他),旨在更精确地捕捉和生成各音乐部分的独立角色及其在编排中的交互,提升了编排丰富度。
  3. 两阶段框架的有效整合:将上述两个设计正交地整合到一个两阶段自回归框架中。消融研究表明二者互补:草图规划主要改善时间维度上的结构与发展,多轨建模主要改善音轨维度上的丰富度与制作品质。

📊 实验结果

主要对比结果(表1:客观指标)

方法FAD ↓MuQ-T ↑PER ↓AudioBox Aesthetics ↑SongEval Aesthetics ↑

| YuE | 4.16 | 0.17 | 45.16 | 7.02 / 7.85 / 3.34 / 3.16 | 3.21 / 3.16 / 3.08 | | DiffRhythm 2 | 3.49 | 0.40 | 25.6 | 7.51 / 8.19 / 3.95 / 3.67 | 3.79 / 3.68 / 3.54 | | ACE-Step 1.5 | 2.62 | 0.27 | 24.5 | 7.57 / 8.21 / 4.16 / 4.11 | 4.09 / 4.04 / 3.73 | | LeVo (released) | 3.79 | 0.24 | 9.3 | 7.71 / 8.40 / 3.92 / 3.75 | 3.83 / 3.66 / 3.58 | | LeVo (our trained) | 3.73 | 0.29 | 32.3 | 7.61 / 8.35 / 3.52 / 3.42 | 3.38 / 3.36 / 3.25 | | + Sketch planning | 3.05 | 0.33 | 29.7 | 7.72 / 8.31 / 3.49 / 3.69 | 3.65 / 3.60 / 3.51 | | + Multi-track modeling | 3.82 | 0.29 | 31.4 | 7.58 / 8.43 / 3.88 / 3.35 | 3.36 / 3.28 / 3.20 | | SketchSong | 3.06 | 0.32 | 27.8 | 7.76 / 8.42 / 3.84 / 3.59 | 3.67 / 3.65 / 3.48 |

注:CE/CU/PC/PQ为AudioBox Aesthetics指标;Coh./Mus./Mem./Cla./Nat.为SongEval Aesthetics指标。

主观MOS测试结果(表2)

方法MOS ↑
OVLSSCADIRVQ
LeVo (our trained)3.603.763.623.563.82
+ Sketch planning3.643.883.903.623.88
+ Multi-track modeling3.583.703.603.783.78
SketchSong3.683.843.873.843.80

注:OVL/SSC/AD/IR/VQ分别为整体质量、歌曲结构清晰度、编排发展、乐器丰富度和人声质量。

关键发现:

  1. 主实验对比:与公平训练的LeVo基线相比,SketchSong在FAD(3.73→3.06)、PER(32.3→27.8)、CE(7.61→7.76)等指标上取得最佳。在部分美学指标(CU, PC, PQ)上达到次优或接近最优。值得注意的是,所有对比的开源系统(除YuE外)均使用了后训练,而SketchSong未使用,这凸显了其基础架构的有效性。
  2. 消融研究:
    • 单独加入草图规划(+Sketch planning)在FAD、CE、CU、Mus.、Mem.上取得最大提升,验证了其对长期结构和音乐性的贡献。
    • 单独加入多轨建模(+Multi-track modeling)主要提升PC(3.52→3.88)和IR(MOS:3.56→3.78),但对FAD改善有限甚至略降,论文归因于共享解码器和简单混音的限制。
    • 完整的SketchSong结合了二者优势,在多数指标上达到���优平衡。
  3. 案例研究:
    • 频谱图可视化:定性展示了SketchSong生成的音频中,贝斯、鼓等轨道频率角色分离更清晰,且不同段落(主歌、副歌)的编排发展和动态变化更明显。
    • 草图可控性:通过替换草图为参考歌曲(抒情民谣或摇滚)的草图,在相同文本提示下,生成音频的风格和能量被显著改变,证明了草图作为控制接口的有效性。

图3

图4

⚖️ 评分理由

  • 创新性 (1.5/2):问题定义清晰,提出的“草图规划”和“细粒度四轨建模”两个正交设计动机明确,且能有效结合。草图规划作为中间规划层是当前音频生成中的一个值得关注的方向。然而,多轨建模并非全新概念(如JEN-1, StemGen),其创新更多在于在完整歌曲生成上下文中的应用和与草图规划的结合。
  • 技术严谨性 (1.2/1.5):方法描述清晰,训练流程(两阶段训练)和架构设计(隐藏状态注入)有详细说明。但存在明显的技术妥协:第二阶段多轨模型解码时仍共享为混合信号训练的伴奏编解码器,这与“细粒度建模”的声称存在矛盾,削弱了技术完整性。论文指出了此局限,但仍是方法上的一个显著弱点。
  • 实验充分性 (1.3/2):实验设计较为全面。设置了公平的基线(重训LeVo),包含了多个强开源系统对比。提供了客观指标、主观MOS、消融研究、案例研究(频谱图和可控性)。然而,在与开源系统对比时,未能控制“后训练”这一关键变量,使得对比不完全公平(尽管论文明确说明了)。部分指标(如PER)与最优系统仍有差距。消融实验有力,但“+Multi-track”变体对FAD的负面影响需要更深入的分析。
  • 清晰度 (1.6/2):论文结构清晰,逻辑连贯。方法部分从整体框架到两个核心组件,再到训练推理,层次分明。图表(如图2框架图)对理解有帮助。术语定义清晰。
  • 影响力 (1.5/2):对音乐生成社区有明确贡献,提出的分层规划与细粒度建模思路可能影响后续工作。但作为一篇系统性工作,其影响力可能局限于应用层面的改进,缺乏理论突破。在缺乏完全自洽的解码方案和后训练的情况下,其最终性能上限有待进一步验证。
  • 开源 (0.2/1.5):非常弱。论文未开源代码、模型权重,也未公开数据集。仅提供了训练配置的详细描述和引用了一系列开源工具。这对复现和公平比较造成巨大障碍。
  • 可复现性 (1.3/1.5):尽管未开源核心资源,但论文提供了详尽的训练细节(硬件、步数、RVQ配置、预热等)、使用的预训练模型(LeVo解码器、Demucs、MuQ等)以及评估流程。理论上,一个具备强大工程能力且拥有大规模音乐数据的团队可以尝试复现,但成本极高。
  • 工程/实践价值 (1.4/1.5):框架设计具有实用价值,将高级规划与低级生成解耦,提供了控制接口。实验表明其效果优于强基线。主要工程缺陷(共享解码器、简单混音)在论文中被识别为未来工作,表明作者清楚其实践改进方向。

🚨 局限与问题

  1. 解码器瓶颈与声学局限:这是最大的技术局限。论文承认第二阶段生成的贝斯、鼓和其他轨道仍使用为LeVo混合信号训练的伴奏编解码器进行解码。这意味着模型虽然学到了四轨的token表示,但解码后的波形可能并未真正反映各轨道应有的声学特性(如贝斯应有的低频能量),解码后简单的幅度缩放混音也可能导致不自然的听感。这直接限制了“多轨建模”在感知质量上的收益,也解释了为什么“+Multi-track”变体在FAD上没有提升甚至略降。
  2. 缺乏后训练:论文明确指出,与对比的开源系统(DiffRhythm 2, ACE-Step)不同,SketchSong未进行任何后训练(如DPO、文本/歌词对齐优化)。这使得在PER、部分美学指标上的对比并不完全公平,也暗示了SketchSong的性能可能通过引入后训练得到进一步提升。这既是局限,也指明了明确的优化路径。
  3. “其他乐器”轨道的模糊性:将除人声、贝斯、鼓之外的所有乐器归为一个“其他”轨道,定义过于宽泛。这个轨道可能包含旋律乐器(吉他、钢琴)、和声铺底、效果音等,其内部异质性很高。模型难以对这个笼统的类别进行精细建模,可能限制了编排丰富度的上限。
  4. 实验设计与分析的深度:虽然消融研究证明了组件的有效性,但对于“+Multi-track”变体在FAD上表现不佳的解释(归因于解码和混音)稍显简略。可以进一步分析生成的多轨token在声学特征上的表现,或者进行用户研究,探究多轨建模在感知上究竟改善了什么(如层次感),又在哪些方面不足(如音色融合)。
  5. 基线比较的公平性:尽管作者重训了LeVo基线,但与使用官方发布检查点的LeVo(released)对比,以及与其他使用后训练的开源系统对比时,性能比较的解释需要谨慎。论文坦诚地指出了这一点,但这仍是影响结论强度的一个因素。
  6. 计算开销与效率:论文报告了训练硬件(64 A100),但未提供训练时间或推理速度的比较。一个包含两阶段模型、复杂输入条件(隐藏状态拼接)的框架,其推理延迟和资源消耗可能高于单阶段基线,这对实际应用是重要考量。

← 返回 2026-06-03 语音/音乐/音频论文速递