📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

#音乐分离， #自回归模型， #大语言模型， #音频大模型

✅ 评分：7.0/10 | arxiv

👥 作者与机构

第一作者/通讯作者：彭博吕 (Pengbo Lyu) （阿里巴巴通义应用业务组，中国）
其他作者：
- 赵翔宇 (Xiangyu Zhao) （阿里巴巴通义应用业务组，中国）
- 刘成伟 (Chengwei Liu) （阿里巴巴通义应用业务组，中国）
- 闫浩音 (Haoyin Yan) （阿里巴巴通义应用业务组，中国）
- 梁晓涛 (Xiaotao Liang) （阿里巴巴通义应用业务组，中国）
- 王宏宇 (Hongyu Wang) （阿里巴巴通义应用业务组，中国）
- 薛少飞 (Shaofei Xue) （推断，根据邮箱mullerxue@126.com，可能为独立研究者或与阿里巴巴合作）

💡 毒舌点评

亮点：成功把“分离”这个传统的“信号复原”问题，包装成了“生成”问题，用上了时髦的大语言模型，思路清奇，算是在音频领域给LLM找到了一个新“乐子”。槽点：处理鼓点这种“快准狠”的声音还是不行，暴露了自回归模型“慢工出细活”的本质短板；更尴尬的是，训练用的“标准答案”（伪标签）还是隔壁BS-RoFormer模型生成的，有种“用老师教学生，还怪学生超不过老师”的黑色幽默。

🔗 开源详情

代码：论文中提供了GitHub链接（https://anonymous.4open.science/w/mss-demo-page-2F80/），表明代码已开源。
模型权重：论文中未明确说明是否公开预训练模型权重。
数据集：训练使用内部大规模数据集（未公开），评估使用公开的MUSDB18-HQ数据集。
在线Demo：论文提供了演示页面链接（https://anonymous.4open.science/w/mss-demo-page-2F80/）。
依赖的开源工具/模型：
- BS-RoFormer：用于生成伪标签的SOTA分离模型。
- HCodec：用于音频令牌化和重构的双路径编解码器。
- HuBERT：用于提取语义特征的预训练语音模型。
- Silero VAD：用于语音活动检测。
- LLaMA：作为解码器-only语言模型的架构基础。
- MUSDB18-HQ：公开的评估数据集。

📌 核心摘要

本文提出了一种用于多轨音乐源分离的生成式框架，其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号，而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后，一个基于Conformer的条件编码器从混合音频中提取特征，作为解码器-only大语言模型（LLaMA架构） 的条件前缀。该语言模型以自回归的方式，按照固定顺序（人声、鼓、贝斯、其他）依次生成四个目标轨道的令牌序列，最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明，该生成方法在整体感知质量（ViSQOL）上接近顶尖的判别式方法（如BS-RoFormer），并且在人声轨道的NISQA感知质量评分上取得了最高分（2.50）。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而，该方法在处理具有尖锐瞬态的鼓组时性能存在差距，且依赖于其他模型的伪标签进行训练，这限制了其性能上限。

🏗️ 模型架构

该框架是一个端到端的条件生成系统，包含三大核心组件，其完整流程如下：

输入：48kHz单声道混合音频波形 x_mix。
条件特征提取：
- 组件：基于Conformer的条件编码器。
- 流程：首先对 x_mix 进行STFT（FFT大小2048，跳跃长度960），计算120维的log-Mel频谱图 M。然后，M 被送入一个8层、12头注意力、深度卷积核大小为31的Conformer编码器，并使用旋转位置嵌入。输出为混合特征 F_mix，最后通过一个线性适配器层投影至语言模型的隐藏维度。
- 作用：为语言模型提供关于混合音频的紧凑、高层次的条件表示。
离散音频令牌化：
- 组件：双路径神经音频编解码器 HCodec（参数冻结）。
- 流程：HCodec包含声学路径（处理STFT频谱）和语义路径（处理冻结的HuBERT特征），两者均输出12.5Hz帧率的特征。每个路径独立使用16层、码本大小为1024的残差矢量量化（RVQ）进行量化，分别得到声学令牌 c^a 和语义令牌 c^s。为便于语言建模，两者沿时间轴交织：[c0^a, c0^s, c1^a, c1^s, ...]。
- 作用：将连续音频波形转换为离散的令牌序列，这是生成式建模的基础。
自回归令牌生成：
- 组件：基于LLaMA架构的解码器-only Transformer（16层，16头注意力，隐藏维度2048）。
- 输入序列：x = [<mix>, F_mix, S, c^(1), S, c^(2), S, c^(3), S, c^(4)]。其中 <mix> 是起始标记，S 是每个轨道共享的开始令牌，c^(k) 是第k个轨道的交织令牌序列。轨道顺序固定为：人声、鼓、贝斯、其他。
- 输出序列：y = [c^(1), E, c^(2), E, c^(3), E, c^(4), E]。E 是共享的结束令牌，用于分隔轨道。
- 作用：语言模型学习在给定混合条件 F_mix 和已生成令牌的历史 y_<t 的条件下，预测下一个令牌 y_t 的概率分布。通过自回归方式，模型在单次前向传播中顺序生成所有四个轨道的令牌。
输出重构：生成的离散令牌序列被解交织回声学和语义令牌，然后送入冻结的HCodec解码器，重构出四个分离的音频波形。

关键设计选择理由：

生成式范式：旨在克服传统判别式方法（回归/掩码估计）的局限性，探索��的建模思路。
离散令牌+LLM：借鉴了自然语言和音频生成领域的成功经验，利用LLM强大的序列建模能力。
自回归顺序生成：允许模型在生成后续轨道时，隐式地利用前面已生成轨道的信息，从而建模跨轨道依赖关系（如人声与伴奏的分离）。
交织声学-语义令牌：旨在让语言模型同时捕捉音频的低级声学细节和高级语义信息。

💡 核心创新点

范式创新：将多轨音乐源分离重构为条件离散令牌生成任务 * 之前：主流方法是判别式的，直接回归时频域连续信号（如频谱掩码或波形）。 * 现在：本文首次提出使用解码器-only语言模型，以自回归方式生成代表各音轨的离散音频令牌序列。 * 效果：在MUSDB18-HQ上验证了该生成范式的可行性，其感知质量接近SOTA判别式方法，并在人声NISQA指标上达到最优。

模型架构：集成Conformer编码器、双路径音频编解码器与LLM的生成框架 * 之前：分离模型通常是专用的U-Net、Transformer或混合结构。音频令牌化与语言模型分离是独立的研究方向。 * 现在：本文设计了一个三组件流水线：Conformer用于提取混合条件特征，HCodec提供离散表示和重构能力，LLM作为核心生成器。 * 效果：提供了一个完整的、端到端的生成式分离解决方案，展示了不同领域技术（音频信号处理、编解码器、NLP）融合的可能性。

生成策略：顺序自回归生成以利用跨轨道上下文 * 之前：多轨分离通常并行输出所有轨道，或对每个轨道独立处理。 * 现在：本文强制模型按固定顺序（人声->鼓->贝斯->其他）生成轨道，并在推理时保持KV缓存跨轨道传递。 * 消融实验支持：并行生成（A3）导致平均ViSQOL从3.55降至3.49，人声和“其他”轨道下降明显，证明了顺序生成的好处。

表示设计：交织的声学与语义令牌序列 * 之前：音频令牌化通常只使用一种类型的令牌（如仅声学或仅语义）。 * 现在：将HCodec输出的声学令牌和语义令牌按时间步交织，形成单一序列输入LLM。 * 效果：旨在让语言模型在单个序列中同时建模音频的底层细节和高层含义，尽管论文未对此设计进行单独的消融，但这是其方法的一个基础性设计选择。

🔬 细节详述

训练数据：
- 内部数据集：约23,000小时44.1kHz音频，包含歌曲、有声书、器乐曲。
- 伪标签生成：使用SOTA的BS-RoFormer模型对原始混合音频进行分离，生成人声、鼓、贝斯、其他的伪标签作为训练目标。
- 预处理：对所有伪人声轨道使用Silero VAD进行语音活动检测，合并相邻片段，丢弃短于2.0秒的片段。
- 数据增强：在线进行，包括：每轨道随机响度缩放（[0.5, 1.5]）、极性反转（10%概率）、七段参数均衡器（轨道相关增益）。
- 评估数据：MUSDB18-HQ测试集（50首完整歌曲）。
损失函数：
- 类型：加权负对数似然损失。
- 公式：L = -∑_{t=1}^{L} log P(y_t | <mix>, F_mix, y_{<t}; θ)。
- 权重：针对16层RVQ，第一层权重为2，其余15层权重为1。这是为了优先保证最粗粒度（第一层）令牌的预测准确性。
- 正则化：标签平滑（ε=0.1）。
训练策略：
- 优化器：AdamW。
- 学习率：初始5e-4，2000步warm-up，之后指数衰减。
- 批次大小：每GPU 24个样本，每个样本随机裁剪为4.0秒片段。总批次大小约为192（8 GPU * 24）。
- 训练轮数：35个epoch。
- 硬件：8块NVIDIA A100 (80GB) GPU。
关键超参数：
- Conformer编码器：8层，12头注意力，深度卷积核31。
- LLM骨干：16层，16头注意力，隐藏维度2048，dropout 0.1。
- HCodec：帧率12.5Hz，RVQ层数16，每层码本大小1024。声学和语义路径独立量化。
- 音频参数：48kHz单声道。
推理细节：
- 解码策略：使用贪婪解码（每一步选择概率最高的令牌）。论文未提及使用束搜索或采样。
- 缓存机制：在生成四个轨道时，保持语言模型的KV缓存，以利用跨轨道上下文。
- 终止条件：当生成的令牌总长度达到预定义值（对应四个轨道的固定序列长度）时停止。

📊 实验结果

主要指标对比表（来自论文）：

表1：整体分离质量（ViSQOL，越高越好）

模型	类型	人声	鼓	贝斯	其他	平均
HTDemucs4	D	3.72	3.88	4.11	3.11	3.71
BS-RoFormer	D	3.72	3.87	4.12	3.13	3.71
SCNet	D	3.60	3.77	3.92	3.19	3.62
Ours	G	3.55	3.44	4.11	3.11	3.55

表2：人声轨道质量（DNSMOS & NISQA）

模型	类型	SIG	BAK	OVRL	NISQA
HTDemucs4	D	2.71	3.22	2.25	2.19
BS-RoFormer	D	2.88	3.41	2.40	2.47
SCNet	D	2.65	2.89	2.17	2.33
Ours	G	2.62	3.02	2.19	2.50

表3：消融实验（ViSQOL）

变体	描述	人声	鼓	贝斯	其他	平均
Main	完整模型	3.55	3.44	4.11	3.11	3.55
A1 (HuBERT)	用冻结的HuBERT替换Conformer条件编码器	3.35	3.06	4.08	2.98	3.37
A2 (Loss weight)	使用更陡峭的RVQ层损失权重计划	3.54	3.50	4.08	3.10	3.56
A3 (Parallel)	使用并行解码头替代自回归顺序生成	3.39	3.51	4.06	3.01	3.49

结果分析：

与SOTA对比：本文方法平均ViSQOL（3.55）略低于三个判别式SOTA（3.62-3.71）。主要差距在鼓组（3.44 vs. 3.77-3.88），表明自回归生成对瞬态信号建模困难。在贝斯和其他轨道上已达到持平水平。
人声质量亮点：在人声轨道的NISQA（非侵入式感知质量）指标上取得最高分（2.50），超过了所有判别式方法。这表明生成式方法可能在人声的自然度和听感舒适度方面有优势。定性频谱图（图2）也显示其人声谱更干净，伴奏泄漏更少。
消融实验结论：
- A1：证明可学习的Conformer编码器远优于冻结的HuBERT特征（平均3.55 vs. 3.37），尤其在鼓组上（3.44 vs. 3.06）。
- A2：调整RVQ层损失权重对整体性能影响不大，但略微改善了鼓组，轻微降低了人声和其他轨道。
- A3：并行生成导致性能下降（平均3.55 vs. 3.49），特别是人声和“其他”轨道，验证了顺序自回归生成利用跨轨道��下文的有效性。

⚖️ 评分理由

创新性：7.5/10 - 提出了一个清晰且完整的生成式音乐分离新范式，将LLM引入该任务，并进行了系统性的实验验证。这是一个有价值的探索方向，但并非基础理论的突破。
实验充分性：7.0/10 - 实验设计完整，包括与多个SOTA的对比、多维度评估指标（ViSQOL, DNSMOS, NISQA）、以及针对关键组件的消融研究。数据规模较大（23k小时），但依赖伪标签是一个潜在缺陷。
实用价值：6.5/10 - 该方法展示了生成模型在音频分离中的潜力，尤其在人声质量上表现突出，对音乐制作、卡拉OK生成等应用有潜在价值。但当前性能（尤其鼓组）和推理速度（自回归）可能影响其直接落地。
灌水程度：2.0/10 - 论文结构清晰，内容扎实，没有明显的冗余或夸大表述。技术细节描述充分，实验报告规范。

🖼️ 图片与表格

图1: 模型整体架构图 | 保留: 是 - 清晰展示了三大核心组件（条件编码器、HCodec、解码器-only LM）及其数据流，是理解论文方法的关键。
图2: 人声分离结果频谱图对比 | 保留: 是 - 直观展示了本文方法（Ours）与BS-RoFormer、SCNet在人声分离上的定性效果，支持了“更干净、泄漏更少”的论点。
表1，表2，表3：这些是核心实验结果表格，已在“04.实验结果”部分以文字形式完整复述。它们对于评估方法性能至关重要，必须保留其数据信息。

📸 论文图片

← 返回 2026-04-20 论文速递

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文