📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models
#音乐分离, #自回归模型, #大语言模型, #音频大模型
✅ 评分:7.0/10 | arxiv
👥 作者与机构
- 第一作者/通讯作者:彭博吕 (Pengbo Lyu) (阿里巴巴通义应用业务组,中国)
- 其他作者:
- 赵翔宇 (Xiangyu Zhao) (阿里巴巴通义应用业务组,中国)
- 刘成伟 (Chengwei Liu) (阿里巴巴通义应用业务组,中国)
- 闫浩音 (Haoyin Yan) (阿里巴巴通义应用业务组,中国)
- 梁晓涛 (Xiaotao Liang) (阿里巴巴通义应用业务组,中国)
- 王宏宇 (Hongyu Wang) (阿里巴巴通义应用业务组,中国)
- 薛少飞 (Shaofei Xue) (推断,根据邮箱mullerxue@126.com,可能为独立研究者或与阿里巴巴合作)
💡 毒舌点评
亮点:成功把“分离”这个传统的“信号复原”问题,包装成了“生成”问题,用上了时髦的大语言模型,思路清奇,算是在音频领域给LLM找到了一个新“乐子”。 槽点:处理鼓点这种“快准狠”的声音还是不行,暴露了自回归模型“慢工出细活”的本质短板;更尴尬的是,训练用的“标准答案”(伪标签)还是隔壁BS-RoFormer模型生成的,有种“用老师教学生,还怪学生超不过老师”的黑色幽默。
📌 核心摘要
本文提出了一种用于多轨音乐源分离的生成式框架,其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号,而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后,一个基于Conformer的条件编码器从混合音频中提取特征,作为解码器-only大语言模型(LLaMA架构) 的条件前缀。该语言模型以自回归的方式,按照固定顺序(人声、鼓、贝斯、其他)依次生成四个目标轨道的令牌序列,最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明,该生成方法在整体感知质量(ViSQOL)上接近顶尖的判别式方法(如BS-RoFormer),并且在人声轨道的NISQA感知质量评分上取得了最高分(2.50)。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而,该方法在处理具有尖锐瞬态的鼓组时性能存在差距,且依赖于其他模型的伪标签进行训练,这限制了其性能上限。
🏗️ 模型架构
该框架是一个端到端的条件生成系统,包含三大核心组件,其完整流程如下:
- 输入:48kHz单声道混合音频波形
x_mix。 - 条件特征提取:
- 组件:基于Conformer的条件编码器。
- 流程:首先对
x_mix进行STFT(FFT大小2048,跳跃长度960),计算120维的log-Mel频谱图M。然后,M被送入一个8层、12头注意力、深度卷积核大小为31的Conformer编码器,并使用旋转位置嵌入。输出为混合特征F_mix,最后通过一个线性适配器层投影至语言模型的隐藏维度。 - 作用:为语言模型提供关于混合音频的紧凑、高层次的条件表示。
- 离散音频令牌化:
- 组件:双路径神经音频编解码器 HCodec(参数冻结)。
- 流程:HCodec包含声学路径(处理STFT频谱)和语义路径(处理冻结的HuBERT特征),两者均输出12.5Hz帧率的特征。每个路径独立使用16层、码本大小为1024的残差矢量量化(RVQ)进行量化,分别得到声学令牌
c^a和语义令牌c^s。为便于语言建模,两者沿时间轴交织:[c0^a, c0^s, c1^a, c1^s, ...]。 - 作用:将连续音频波形转换为离散的令牌序列,这是生成式建模的基础。
- 自回归令牌生成:
- 组件:基于LLaMA架构的解码器-only Transformer(16层,16头注意力,隐藏维度2048)。
- 输入序列:
x = [<mix>, F_mix, S, c^(1), S, c^(2), S, c^(3), S, c^(4)]。其中<mix>是起始标记,S是每个轨道共享的开始令牌,c^(k)是第k个轨道的交织令牌序列。轨道顺序固定为:人声、鼓、贝斯、其他。 - 输出序列:
y = [c^(1), E, c^(2), E, c^(3), E, c^(4), E]。E是共享的结束令牌,用于分隔轨道。 - 作用:语言模型学习在给定混合条件
F_mix和已生成令牌的历史y_<t的条件下,预测下一个令牌y_t的概率分布。通过自回归方式,模型在单次前向传播中顺序生成所有四个轨道的令牌。
- 输出重构:生成的离散令牌序列被解交织回声学和语义令牌,然后送入冻结的HCodec解码器,重构出四个分离的音频波形。
关键设计选择理由:
- 生成式范式:旨在克服传统判别式方法(回归/掩码估计)的局限性,探索���的建模思路。
- 离散令牌+LLM:借鉴了自然语言和音频生成领域的成功经验,利用LLM强大的序列建模能力。
- 自回归顺序生成:允许模型在生成后续轨道时,隐式地利用前面已生成轨道的信息,从而建模跨轨道依赖关系(如人声与伴奏的分离)。
- 交织声学-语义令牌:旨在让语言模型同时捕捉音频的低级声学细节和高级语义信息。
💡 核心创新点
范式创新:将多轨音乐源分离重构为条件离散令牌生成任务 * 之前:主流方法是判别式的,直接回归时频域连续信号(如频谱掩码或波形)。 * 现在:本文首次提出使用解码器-only语言模型,以自回归方式生成代表各音轨的离散音频令牌序列。 * 效果:在MUSDB18-HQ上验证了该生成范式的可行性,其感知质量接近SOTA判别式方法,并在人声NISQA指标上达到最优。
模型架构:集成Conformer编码器、双路径音频编解码器与LLM的生成框架 * 之前:分离模型通常是专用的U-Net、Transformer或混合结构。音频令牌化与语言模型分离是独立的研究方向。 * 现在:本文设计了一个三组件流水线:Conformer用于提取混合条件特征,HCodec提供离散表示和重构能力,LLM作为核心生成器。 * 效果:提供了一个完整的、端到端的生成式分离解决方案,展示了不同领域技术(音频信号处理、编解码器、NLP)融合的可能性。
生成策略:顺序自回归生成以利用跨轨道上下文 * 之前:多轨分离通常并行输出所有轨道,或对每个轨道独立处理。 * 现在:本文强制模型按固定顺序(人声->鼓->贝斯->其他)生成轨道,并在推理时保持KV缓存跨轨道传递。 * 消融实验支持:并行生成(A3)导致平均ViSQOL从3.55降至3.49,人声和“其他”轨道下降明显,证明了顺序生成的好处。
表示设计:交织的声学与语义令牌序列 * 之前:音频令牌化通常只使用一种类型的令牌(如仅声学或仅语义)。 * 现在:将HCodec输出的声学令牌和语义令牌按时间步交织,形成单一序列输入LLM。 * 效果:旨在让语言模型在单个序列中同时建模音频的底层细节和高层含义,尽管论文未对此设计进行单独的消融,但这是其方法的一个基础性设计选择。
🔬 细节详述
- 训练数据:
- 内部数据集:约23,000小时44.1kHz音频,包含歌曲、有声书、器乐曲。
- 伪标签生成:使用SOTA的BS-RoFormer模型对原始混合音频进行分离,生成人声、鼓、贝斯、其他的伪标签作为训练目标。
- 预处理:对所有伪人声轨道使用Silero VAD进行语音活动检测,合并相邻片段,丢弃短于2.0秒的片段。
- 数据增强:在线进行,包括:每轨道随机响度缩放([0.5, 1.5])、极性反转(10%概率)、七段参数均衡器(轨道相关增益)。
- 评估数据:MUSDB18-HQ测试集(50首完整歌曲)。
- 损失函数:
- 类型:加权负对数似然损失。
- 公式:
L = -∑_{t=1}^{L} log P(y_t | <mix>, F_mix, y_{<t}; θ)。 - 权重:针对16层RVQ,第一层权重为2,其余15层权重为1。这是为了优先保证最粗粒度(第一层)令牌的预测准确性。
- 正则化:标签平滑(ε=0.1)。
- 训练策略:
- 优化器:AdamW。
- 学习率:初始5e-4,2000步warm-up,之后指数衰减。
- 批次大小:每GPU 24个样本,每个样本随机裁剪为4.0秒片段。总批次大小约为192(8 GPU * 24)。
- 训练轮数:35个epoch。
- 硬件:8块NVIDIA A100 (80GB) GPU。
- 关键超参数:
- Conformer编码器:8层,12头注意力,深度卷积核31。
- LLM骨干:16层,16头注意力,隐藏维度2048,dropout 0.1。
- HCodec:帧率12.5Hz,RVQ层数16,每层码本大小1024。声学和语义路径独立量化。
- 音频参数:48kHz单声道。
- 推理细节:
- 解码策略:使用贪婪解码(每一步选择概率最高的令牌)。论文未提及使用束搜索或采样。
- 缓存机制:在生成四个轨道时,保持语言模型的KV缓存,以利用跨轨道上下文。
- 终止条件:当生成的令牌总长度达到预定义值(对应四个轨道的固定序列长度)时停止。
📊 实验结果
主要指标对比表(来自论文):
表1:整体分离质量(ViSQOL,越高越好)
| 模型 | 类型 | 人声 | 鼓 | 贝斯 | 其他 | 平均 |
|---|---|---|---|---|---|---|
| HTDemucs4 | D | 3.72 | 3.88 | 4.11 | 3.11 | 3.71 |
| BS-RoFormer | D | 3.72 | 3.87 | 4.12 | 3.13 | 3.71 |
| SCNet | D | 3.60 | 3.77 | 3.92 | 3.19 | 3.62 |
| Ours | G | 3.55 | 3.44 | 4.11 | 3.11 | 3.55 |
表2:人声轨道质量(DNSMOS & NISQA)
| 模型 | 类型 | SIG | BAK | OVRL | NISQA |
|---|---|---|---|---|---|
| HTDemucs4 | D | 2.71 | 3.22 | 2.25 | 2.19 |
| BS-RoFormer | D | 2.88 | 3.41 | 2.40 | 2.47 |
| SCNet | D | 2.65 | 2.89 | 2.17 | 2.33 |
| Ours | G | 2.62 | 3.02 | 2.19 | 2.50 |
表3:消融实验(ViSQOL)
| 变体 | 描述 | 人声 | 鼓 | 贝斯 | 其他 | 平均 |
|---|---|---|---|---|---|---|
| Main | 完整模型 | 3.55 | 3.44 | 4.11 | 3.11 | 3.55 |
| A1 (HuBERT) | 用冻结的HuBERT替换Conformer条件编码器 | 3.35 | 3.06 | 4.08 | 2.98 | 3.37 |
| A2 (Loss weight) | 使用更陡峭的RVQ层损失权重计划 | 3.54 | 3.50 | 4.08 | 3.10 | 3.56 |
| A3 (Parallel) | 使用并行解码头替代自回归顺序生成 | 3.39 | 3.51 | 4.06 | 3.01 | 3.49 |
结果分析:
- 与SOTA对比:本文方法平均ViSQOL(3.55)略低于三个判别式SOTA(3.62-3.71)。主要差距在鼓组(3.44 vs. 3.77-3.88),表明自回归生成对瞬态信号建模困难。在贝斯和其他轨道上已达到持平水平。
- 人声质量亮点:在人声轨道的NISQA(非侵入式感知质量)指标上取得最高分(2.50),超过了所有判别式方法。这表明生成式方法可能在人声的自然度和听感舒适度方面有优势。定性频谱图(图2)也显示其人声谱更干净,伴奏泄漏更少。
- 消融实验结论:
- A1:证明可学习的Conformer编码器远优于冻结的HuBERT特征(平均3.55 vs. 3.37),尤其在鼓组上(3.44 vs. 3.06)。
- A2:调整RVQ层损失权重对整体性能影响不大,但略微改善了鼓组,轻微降低了人声和其他轨道。
- A3:并行生成导致性能下降(平均3.55 vs. 3.49),特别是人声和“其他”轨道,验证了顺序自回归生成利用跨轨道��下文的有效性。
⚖️ 评分理由
- 创新性:7.5/10 - 提出了一个清晰且完整的生成式音乐分离新范式,将LLM引入该任务,并进行了系统性的实验验证。这是一个有价值的探索方向,但并非基础理论的突破。
- 实验充分性:7.0/10 - 实验设计完整,包括与多个SOTA的对比、多维度评估指标(ViSQOL, DNSMOS, NISQA)、以及针对关键组件的消融研究。数据规模较大(23k小时),但依赖伪标签是一个潜在缺陷。
- 实用价值:6.5/10 - 该方法展示了生成模型在音频分离中的潜力,尤其在人声质量上表现突出,对音乐制作、卡拉OK生成等应用有潜在价值。但当前性能(尤其鼓组)和推理速度(自回归)可能影响其直接落地。
- 灌水程度:2.0/10 - 论文结构清晰,内容扎实,没有明显的冗余或夸大表述。技术细节描述充分,实验报告规范。
🔗 开源详情
- 代码:论文中提供了GitHub链接(
https://anonymous.4open.science/w/mss-demo-page-2F80/),表明代码已开源。 - 模型权重:论文中未明确说明是否公开预训练模型权重。
- 数据集:训练使用内部大规模数据集(未公开),评估使用公开的MUSDB18-HQ数据集。
- 在线Demo:论文提供了演示页面链接(
https://anonymous.4open.science/w/mss-demo-page-2F80/)。 - 依赖的开源工具/模型:
- BS-RoFormer:用于生成伪标签的SOTA分离模型。
- HCodec:用于音频令牌化和重构的双路径编解码器。
- HuBERT:用于提取语义特征的预训练语音模型。
- Silero VAD:用于语音活动检测。
- LLaMA:作为解码器-only语言模型的架构基础。
- MUSDB18-HQ:公开的评估数据集。
🖼️ 图片与表格
- 图1: 模型整体架构图 | 保留: 是 - 清晰展示了三大核心组件(条件编码器、HCodec、解码器-only LM)及其数据流,是理解论文方法的关键。
- 图2: 人声分离结果频谱图对比 | 保留: 是 - 直观展示了本文方法(Ours)与BS-RoFormer、SCNet在人声分离上的定性效果,支持了“更干净、泄漏更少”的论点。
- 表1, 表2, 表3:这些是核心实验结果表格,已在“04.实验结果”部分以文字形式完整复述。它们对于评估方法性能至关重要,必须保留其数据信息。
📸 论文图片

