📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

#音乐分离, #自回归模型, #大语言模型, #音频大模型

评分:7.0/10 | arxiv

👥 作者与机构

  • 第一作者/通讯作者:彭博吕 (Pengbo Lyu) (阿里巴巴通义应用业务组,中国)
  • 其他作者
    • 赵翔宇 (Xiangyu Zhao) (阿里巴巴通义应用业务组,中国)
    • 刘成伟 (Chengwei Liu) (阿里巴巴通义应用业务组,中国)
    • 闫浩音 (Haoyin Yan) (阿里巴巴通义应用业务组,中国)
    • 梁晓涛 (Xiaotao Liang) (阿里巴巴通义应用业务组,中国)
    • 王宏宇 (Hongyu Wang) (阿里巴巴通义应用业务组,中国)
    • 薛少飞 (Shaofei Xue) (推断,根据邮箱mullerxue@126.com,可能为独立研究者或与阿里巴巴合作)

💡 毒舌点评

亮点:成功把“分离”这个传统的“信号复原”问题,包装成了“生成”问题,用上了时髦的大语言模型,思路清奇,算是在音频领域给LLM找到了一个新“乐子”。 槽点:处理鼓点这种“快准狠”的声音还是不行,暴露了自回归模型“慢工出细活”的本质短板;更尴尬的是,训练用的“标准答案”(伪标签)还是隔壁BS-RoFormer模型生成的,有种“用老师教学生,还怪学生超不过老师”的黑色幽默。

📌 核心摘要

本文提出了一种用于多轨音乐源分离的生成式框架,其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号,而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后,一个基于Conformer的条件编码器从混合音频中提取特征,作为解码器-only大语言模型(LLaMA架构) 的条件前缀。该语言模型以自回归的方式,按照固定顺序(人声、鼓、贝斯、其他)依次生成四个目标轨道的令牌序列,最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明,该生成方法在整体感知质量(ViSQOL)上接近顶尖的判别式方法(如BS-RoFormer),并且在人声轨道的NISQA感知质量评分上取得了最高分(2.50)。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而,该方法在处理具有尖锐瞬态的鼓组时性能存在差距,且依赖于其他模型的伪标签进行训练,这限制了其性能上限。

🏗️ 模型架构

该框架是一个端到端的条件生成系统,包含三大核心组件,其完整流程如下:

  1. 输入:48kHz单声道混合音频波形 x_mix
  2. 条件特征提取
    • 组件:基于Conformer的条件编码器。
    • 流程:首先对 x_mix 进行STFT(FFT大小2048,跳跃长度960),计算120维的log-Mel频谱图 M。然后,M 被送入一个8层、12头注意力、深度卷积核大小为31的Conformer编码器,并使用旋转位置嵌入。输出为混合特征 F_mix,最后通过一个线性适配器层投影至语言模型的隐藏维度。
    • 作用:为语言模型提供关于混合音频的紧凑、高层次的条件表示。
  3. 离散音频令牌化
    • 组件:双路径神经音频编解码器 HCodec(参数冻结)。
    • 流程:HCodec包含声学路径(处理STFT频谱)和语义路径(处理冻结的HuBERT特征),两者均输出12.5Hz帧率的特征。每个路径独立使用16层、码本大小为1024的残差矢量量化(RVQ)进行量化,分别得到声学令牌 c^a 和语义令牌 c^s。为便于语言建模,两者沿时间轴交织:[c0^a, c0^s, c1^a, c1^s, ...]
    • 作用:将连续音频波形转换为离散的令牌序列,这是生成式建模的基础。
  4. 自回归令牌生成
    • 组件:基于LLaMA架构的解码器-only Transformer(16层,16头注意力,隐藏维度2048)。
    • 输入序列x = [<mix>, F_mix, S, c^(1), S, c^(2), S, c^(3), S, c^(4)]。其中 <mix> 是起始标记,S 是每个轨道共享的开始令牌,c^(k) 是第k个轨道的交织令牌序列。轨道顺序固定为:人声、鼓、贝斯、其他。
    • 输出序列y = [c^(1), E, c^(2), E, c^(3), E, c^(4), E]E 是共享的结束令牌,用于分隔轨道。
    • 作用:语言模型学习在给定混合条件 F_mix 和已生成令牌的历史 y_<t 的条件下,预测下一个令牌 y_t 的概率分布。通过自回归方式,模型在单次前向传播中顺序生成所有四个轨道的令牌。
  5. 输出重构:生成的离散令牌序列被解交织回声学和语义令牌,然后送入冻结的HCodec解码器,重构出四个分离的音频波形。

关键设计选择理由

  • 生成式范式:旨在克服传统判别式方法(回归/掩码估计)的局限性,探索���的建模思路。
  • 离散令牌+LLM:借鉴了自然语言和音频生成领域的成功经验,利用LLM强大的序列建模能力。
  • 自回归顺序生成:允许模型在生成后续轨道时,隐式地利用前面已生成轨道的信息,从而建模跨轨道依赖关系(如人声与伴奏的分离)。
  • 交织声学-语义令牌:旨在让语言模型同时捕捉音频的低级声学细节和高级语义信息。

💡 核心创新点

范式创新:将多轨音乐源分离重构为条件离散令牌生成任务 * 之前:主流方法是判别式的,直接回归时频域连续信号(如频谱掩码或波形)。 * 现在:本文首次提出使用解码器-only语言模型,以自回归方式生成代表各音轨的离散音频令牌序列。 * 效果:在MUSDB18-HQ上验证了该生成范式的可行性,其感知质量接近SOTA判别式方法,并在人声NISQA指标上达到最优。

模型架构:集成Conformer编码器、双路径音频编解码器与LLM的生成框架 * 之前:分离模型通常是专用的U-Net、Transformer或混合结构。音频令牌化与语言模型分离是独立的研究方向。 * 现在:本文设计了一个三组件流水线:Conformer用于提取混合条件特征,HCodec提供离散表示和重构能力,LLM作为核心生成器。 * 效果:提供了一个完整的、端到端的生成式分离解决方案,展示了不同领域技术(音频信号处理、编解码器、NLP)融合的可能性。

生成策略:顺序自回归生成以利用跨轨道上下文 * 之前:多轨分离通常并行输出所有轨道,或对每个轨道独立处理。 * 现在:本文强制模型按固定顺序(人声->鼓->贝斯->其他)生成轨道,并在推理时保持KV缓存跨轨道传递。 * 消融实验支持:并行生成(A3)导致平均ViSQOL从3.55降至3.49,人声和“其他”轨道下降明显,证明了顺序生成的好处。

表示设计:交织的声学与语义令牌序列 * 之前:音频令牌化通常只使用一种类型的令牌(如仅声学或仅语义)。 * 现在:将HCodec输出的声学令牌和语义令牌按时间步交织,形成单一序列输入LLM。 * 效果:旨在让语言模型在单个序列中同时建模音频的底层细节和高层含义,尽管论文未对此设计进行单独的消融,但这是其方法的一个基础性设计选择。

🔬 细节详述

  • 训练数据
    • 内部数据集:约23,000小时44.1kHz音频,包含歌曲、有声书、器乐曲。
    • 伪标签生成:使用SOTA的BS-RoFormer模型对原始混合音频进行分离,生成人声、鼓、贝斯、其他的伪标签作为训练目标。
    • 预处理:对所有伪人声轨道使用Silero VAD进行语音活动检测,合并相邻片段,丢弃短于2.0秒的片段。
    • 数据增强:在线进行,包括:每轨道随机响度缩放([0.5, 1.5])、极性反转(10%概率)、七段参数均衡器(轨道相关增益)。
    • 评估数据:MUSDB18-HQ测试集(50首完整歌曲)。
  • 损失函数
    • 类型:加权负对数似然损失。
    • 公式L = -∑_{t=1}^{L} log P(y_t | <mix>, F_mix, y_{<t}; θ)
    • 权重:针对16层RVQ,第一层权重为2,其余15层权重为1。这是为了优先保证最粗粒度(第一层)令牌的预测准确性。
    • 正则化:标签平滑(ε=0.1)。
  • 训练策略
    • 优化器:AdamW。
    • 学习率:初始5e-4,2000步warm-up,之后指数衰减。
    • 批次大小:每GPU 24个样本,每个样本随机裁剪为4.0秒片段。总批次大小约为192(8 GPU * 24)。
    • 训练轮数:35个epoch。
    • 硬件:8块NVIDIA A100 (80GB) GPU。
  • 关键超参数
    • Conformer编码器:8层,12头注意力,深度卷积核31。
    • LLM骨干:16层,16头注意力,隐藏维度2048,dropout 0.1。
    • HCodec:帧率12.5Hz,RVQ层数16,每层码本大小1024。声学和语义路径独立量化。
    • 音频参数:48kHz单声道。
  • 推理细节
    • 解码策略:使用贪婪解码(每一步选择概率最高的令牌)。论文未提及使用束搜索或采样。
    • 缓存机制:在生成四个轨道时,保持语言模型的KV缓存,以利用跨轨道上下文。
    • 终止条件:当生成的令牌总长度达到预定义值(对应四个轨道的固定序列长度)时停止。

📊 实验结果

主要指标对比表(来自论文):

表1:整体分离质量(ViSQOL,越高越好)

模型类型人声贝斯其他平均
HTDemucs4D3.723.884.113.113.71
BS-RoFormerD3.723.874.123.133.71
SCNetD3.603.773.923.193.62
OursG3.553.444.113.113.55

表2:人声轨道质量(DNSMOS & NISQA)

模型类型SIGBAKOVRLNISQA
HTDemucs4D2.713.222.252.19
BS-RoFormerD2.883.412.402.47
SCNetD2.652.892.172.33
OursG2.623.022.192.50

表3:消融实验(ViSQOL)

变体描述人声贝斯其他平均
Main完整模型3.553.444.113.113.55
A1 (HuBERT)用冻结的HuBERT替换Conformer条件编码器3.353.064.082.983.37
A2 (Loss weight)使用更陡峭的RVQ层损失权重计划3.543.504.083.103.56
A3 (Parallel)使用并行解码头替代自回归顺序生成3.393.514.063.013.49

结果分析

  • 与SOTA对比:本文方法平均ViSQOL(3.55)略低于三个判别式SOTA(3.62-3.71)。主要差距在鼓组(3.44 vs. 3.77-3.88),表明自回归生成对瞬态信号建模困难。在贝斯和其他轨道上已达到持平水平。
  • 人声质量亮点:在人声轨道的NISQA(非侵入式感知质量)指标上取得最高分(2.50),超过了所有判别式方法。这表明生成式方法可能在人声的自然度和听感舒适度方面有优势。定性频谱图(图2)也显示其人声谱更干净,伴奏泄漏更少。
  • 消融实验结论
    • A1:证明可学习的Conformer编码器远优于冻结的HuBERT特征(平均3.55 vs. 3.37),尤其在鼓组上(3.44 vs. 3.06)。
    • A2:调整RVQ层损失权重对整体性能影响不大,但略微改善了鼓组,轻微降低了人声和其他轨道。
    • A3:并行生成导致性能下降(平均3.55 vs. 3.49),特别是人声和“其他”轨道,验证了顺序自回归生成利用跨轨道��下文的有效性。

⚖️ 评分理由

  • 创新性:7.5/10 - 提出了一个清晰且完整的生成式音乐分离新范式,将LLM引入该任务,并进行了系统性的实验验证。这是一个有价值的探索方向,但并非基础理论的突破。
  • 实验充分性:7.0/10 - 实验设计完整,包括与多个SOTA的对比、多维度评估指标(ViSQOL, DNSMOS, NISQA)、以及针对关键组件的消融研究。数据规模较大(23k小时),但依赖伪标签是一个潜在缺陷。
  • 实用价值:6.5/10 - 该方法展示了生成模型在音频分离中的潜力,尤其在人声质量上表现突出,对音乐制作、卡拉OK生成等应用有潜在价值。但当前性能(尤其鼓组)和推理速度(自回归)可能影响其直接落地。
  • 灌水程度:2.0/10 - 论文结构清晰,内容扎实,没有明显的冗余或夸大表述。技术细节描述充分,实验报告规范。

🔗 开源详情

  • 代码:论文中提供了GitHub链接(https://anonymous.4open.science/w/mss-demo-page-2F80/),表明代码已开源。
  • 模型权重:论文中未明确说明是否公开预训练模型权重。
  • 数据集:训练使用内部大规模数据集(未公开),评估使用公开的MUSDB18-HQ数据集。
  • 在线Demo:论文提供了演示页面链接(https://anonymous.4open.science/w/mss-demo-page-2F80/)。
  • 依赖的开源工具/模型
    • BS-RoFormer:用于生成伪标签的SOTA分离模型。
    • HCodec:用于音频令牌化和重构的双路径编解码器。
    • HuBERT:用于提取语义特征的预训练语音模型。
    • Silero VAD:用于语音活动检测。
    • LLaMA:作为解码器-only语言模型的架构基础。
    • MUSDB18-HQ:公开的评估数据集。

🖼️ 图片与表格

  • 图1: 模型整体架构图 | 保留: 是 - 清晰展示了三大核心组件(条件编码器、HCodec、解码器-only LM)及其数据流,是理解论文方法的关键。
  • 图2: 人声分离结果频谱图对比 | 保留: 是 - 直观展示了本文方法(Ours)与BS-RoFormer、SCNet在人声分离上的定性效果,支持了“更干净、泄漏更少”的论点。
  • 表1, 表2, 表3:这些是核心实验结果表格,已在“04.实验结果”部分以文字形式完整复述。它们对于评估方法性能至关重要,必须保留其数据信息。

📸 论文图片

figure

figure


← 返回 2026-04-20 论文速递