📄 SLM-SS: Speech Language Model for Generative Speech Separation
#语音分离 #语音大模型 #自回归模型 #语音增强
✅ 7.5/10 | 前25% | #语音分离 | #自回归模型 | #语音大模型 #语音增强
学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中
👥 作者与机构
- 第一作者:Tianhua Li(上海交通大学计算机科学与技术学院, 教育部人工智能重点实验室, 听觉认知与计算声学实验室)
- 通讯作者:Chenda Li†(同上; VUI Labs), Yanmin Qian†(同上; VUI Labs)
- 作者列表:Tianhua Li(上海交通大学计算机科学与技术学院), Chenda Li(上海交通大学计算机科学与技术学院, VUI Labs), Wei Wang(上海交通大学计算机科学与技术学院), Xin Zhou(上海交通大学计算机科学与技术学院), Xihui Chen(上海交通大学计算机科学与技术学院), Jianqing Gao(科大讯飞股份有限公司AI研究院), Yanmin Qian(上海交通大学计算机科学与技术学院, VUI Labs)
💡 毒舌点评
亮点在于将语音语言模型的生成范式用于语音分离,直指传统判别方法在“可懂度”上的软肋,并且用AR+NAR混合解码来平衡质量与效率,思路清晰且新颖。短板是模型规模仅为600M参数、仅在LibriMix单一数据集上验证,缺乏在更复杂真实场景(如强噪声、多说话人)和更大规模数据集上的锤炼,说服力打了折扣。
📌 核心摘要
- 要解决的问题:传统判别式语音分离方法在波形重建的信号指标上表现良好,但往往引入失真,导致分离后语音的可懂度下降,进而损害自动语音识别等下游任务的性能。
- 方法核心:提出SLM-SS框架,将语音分离视为离散多码本序列生成问题。首先使用Encodec编码器将语音转换为离散码本序列,并利用SOT策略进行拼接;然后采用基于WavLM编码器和Whisper式解码器的自回归(AR)模型预测零阶码本;接着,使用一个非自回归(NAR)模型基于低阶码本顺序预测高阶码本;最后,通过码本切分与Encodec解码器重建出分离后的单人语音。
- 新意:与先前的判别式方法(如BSRNN, Sepformer)和部分生成式方法不同,SLM-SS首次系统性地将语音语言模型(SLM)的建模能力引入语音分离任务,并创新性地结合了AR和NAR生成策略,以提升效率。
- 主要实验结果:在LibriMix数据集上,SLM-SS在下游任务一致性指标上显著优于基线。其字错误率(WER)为7.24,远低于BSRNN(29.8)和Sepformer(28.7),接近地面真值(5.19)。其Levenshtein音素相似度(LPS)为0.954,也优于基线(BSRNN: 0.885, Sepformer: 0.890)。主观平均意见得分(MOS)SLM-SS为4.19,高于BSRNN(4.01)和Sepformer(3.98)。消融实验证明,随着使用码本数量从1增加到8,WER下降,LPS上升;AR解码温度为1.0时性能最佳。
fig1
图1. SLM-SS 框架概述。(a) Encodec将单人语音编码为多码本序列,然后使用SOT进行合并。(b) AED模型预测零阶码本序列。(c) NAR模型在给定低阶码本的基础上顺序预测高阶码本序列。(d) SOT序列被分割为单人序列,然后解码为音频。(e) NAR解码器采用多个独立的令牌嵌入来整合所有低阶序列信息。
fig2
图2. 随码本数量变化的WER和LPS曲线图。该图展示了随着所使用的码本数量(从1到8)增加,WER(左轴,虚线)呈下降趋势,LPS(右轴,实线)呈上升趋势,表明更多的码本有助于提升分离语音的质量和可懂度。
- 实际意义:为语音分离任务提供了一种新的生成式建模范式,有望显著提升分离结果在语音识别、说话人识别等下游任务中的实用性能。
- 主要局限性:受限于NAR模型的训练难度,仅使用了Encodec的前8个码本(共32个),导致重建语音存在不可避免的信息损失和失真;模型验证规模有限,仅在单一数据集LibriMix上进行,缺乏在更复杂现实场景下的泛化能力证明。
🏗️ 模型架构
SLM-SS的整体流程如图1所示,可分为编码、建模、解码三个阶段:
语音编码与序列化:
- 使用预训练的Encodec模型将连续的单人语音波形转换为离散的多码本令牌序列。对于每个音频片段,其输出包含
C个码本(m=32),每个码本大小为1024。论文实验中使用了前8个码本。 - 采用序列化输出训练(SOT)策略,将不同说话人的离散序列拼接成一个序列,以处理多说话人场景。序列以
<SOS>开始,用<SC>分隔不同说话人,以<EOS>结束。其数学表示为公式(1):C = [c0, c1, ..., cm-1],其中ci是第i阶码本对应的SOT序列。 - 在解码前,需要根据
<SC>符号将模型输出的多说话人序列切分回单个说话人的序列。
- 使用预训练的Encodec模型将连续的单人语音波形转换为离散的多码本令牌序列。对于每个音频片段,其输出包含
自回归(AR)建模:
- 编码器:采用预训练的WavLM-large模型,并对其参数进行微调。为了融合WavLM各层的特征,设计了一个线性层将所有隐藏层的特征拼接后融合,再经过层归一化得到混合语音的深度特征
H。 - 解码器:架构参考Whisper,但参数量更小(16层Transformer)。其词汇表
V由Encodec的1024个令牌和3个特殊符号(<SOS>,<SC>,<EOS>)组成。 - 建模过程:解码器基于历史预测的令牌
[c1_0, ..., cn-1_0]和编码器输出的特征H,通过交叉注意力机制,自回归地预测零阶码本(第0阶)的第n个令牌cn_0,其概率分布为公式(3):on = Decoder([c1_0, ..., cn-1_0], H)。
- 编码器:采用预训练的WavLM-large模型,并对其参数进行微调。为了融合WavLM各层的特征,设计了一个线性层将所有隐藏层的特征拼接后融合,再经过层归一化得到混合语音的深度特征
非自回归(NAR)建模:
- 架构:与AR模型结构相同,但解码器移除了单向注意力掩码,使其可以并行预测所有位置的输出。
- 核心设计:为预测第
i阶码本序列,模型需要同时考虑所有更低阶(j < i)的码本序列信息。为此,论文设计了8个独立的令牌嵌入层(每个对应一阶码本),它们共享相同的位置编码。此外,引入任务嵌入Ti来指示当前预测的是哪一阶码本。 - 输入融合:所有低阶码本序列的令牌,分别通过其对应的独立嵌入层
Emb(cj; θj)进行嵌入,然后求和,再加上位置编码P和任务嵌入Ti,得到总输入嵌入Ei(公式(4))。 - 输出预测:
Ei经过一系列Transformer层得到Hi,最后通过一个投影层映射到第i阶码本的令牌嵌入空间Wi,经Softmax得到该阶所有令牌的概率分布Oi(公式(5)):Oi = Softmax(Hi * Wi^T)。这个过程是逐阶串行进行的。
语音解码:
- 将AR和NAR模型预测出的、并经过切分的多阶码本序列,送入Encodec的解码器,最终恢复出单人语音波形。
💡 核心创新点
- 范式迁移:首次将语音语言模型(SLM)的建模范式系统性地应用于语音分离任务。不同于判别式方法直接回归波形或掩码,SLM-SS将问题重构为离散令牌序列的生成,利用语言建模能力来提升分离语音的语义连贯性和可懂度。
- 混合解码方案:创新性地结合了自回归(AR)和非自回归(NAR)两种生成策略。AR模型用于预测携带主要声学和语义信息的零阶码本,确保序列的整体连贯性;NAR模型则高效地预测高阶码本以补充细节,提升了整体解码效率。
- 多码本与SOT处理:充分利用了神经音频编解码器(Encodec)的多层码本结构,并借鉴ASR中的SOT策略,优雅地解决了多说话人序列的建模和变长说话人数量的问题,通过特殊符号
<SC>实现说话人切换的显式建模。 - 面向下游任务的评估:在评估中不仅关注传统的信号级指标(如SDR),更强调了语音可懂度(WER, LPS, SBS)和说话人一致性(Spk sim),并指出这些指标更能反映语音分离对实际应用的影响。
🔬 细节详述
- 训练数据:
- 数据集:LibriMix(包含Libri2Mix和Libri3Mix),使用了100小时和360小时的训练子集,在测试集上评估。
- 预处理:使用Encodec将原始音频转换为离散令牌序列。论文指出,其模型是在8阶Encodec码本上训练,而非原始波形,因此有效上界是8阶码本重建的音频。
- 损失函数:论文未明确说明损失函数的具体形式。根据任务(序列生成)和模型(AR/NAR),可以合理推测AR阶段使用交叉熵损失预测下一个令牌,NAR阶段同样使用交叉熵损失预测对应阶码本的令牌分布。但具体细节未提供。
- 训练策略:
- 总体:训练30个epoch。
- 学习率:初始学习率为5e-5,使用余弦退火衰减,并在前3个epoch进行线性预热。
- 优化器:未说明。
- Batch Size:未说明。
- 关键超参数:
- 模型参数量:总计约600M。
- 编码器:WavLM-large(预训练并微调)。
- 解码器:16层Transformer,维度参照Whisper-medium,但调整了词汇表大小。
- Encodec码本:总码本阶数
C=32,词汇量|C|=1024。实验中使用前k=8阶。 - NAR模型:设计了8个独立的令牌嵌入层。
- 训练硬件:未说明。
- 推理细节:
- AR阶段:使用束搜索(Beam Search),并应用了空白抑制和N-gram阻塞,以避免空预测和无限重复。
- 温度:论文对AR阶段的温度进行了消融实验(表2),结果显示温度为1.0时性能最佳。
- 正则化或稳定训练技巧:未特别提及。
📊 实验结果
表1. SLM-SS与现有方法的总体比较
| 方法 | 说话人相似度 (Spk sim) | 字错误率 (WER) ↓ | 令牌错误率 (TER) ↓ | Levenshtein音素相似度 (LPS) ↑ | SpeechBERTScore (SBS) ↑ | 平均意见得分 (MOS) ↑ |
|---|---|---|---|---|---|---|
| GT (原始音频) | - | 5.19 | - | 1.000 | 1.000 | 4.60 |
| GT-Encodec32 | 93.5 | 6.03 | 24.7 | 0.975 | 0.957 | 4.34 |
| GT-Encodec8 (上界) | 92.8 | 6.31 | 39.0 | 0.970 | 0.944 | 4.11 |
| BSRNN | 92.6 | 29.8 | 67.2 | 0.885 | 0.885 | 4.01 |
| Sepformer | 89.7 | 28.7 | 73.9 | 0.890 | 0.882 | 3.98 |
| SLM-SS | 91.7 | 7.24 | 45.8 | 0.954 | 0.913 | 4.19 |
注:GT-Encodec32表示使用全部32阶码本重建的音频,GT-Encodec8表示仅使用前8阶码本重建的音频(作为本方法的有效上界)。
关键结论:
- 与上界比较:SLM-SS在几乎所有指标上都优于其自身重建上界(GT-Encodec8),尤其是在WER(7.24 vs 6.31)和LPS(0.954 vs 0.970)上差距较小,说明模型生成质量很高。
- 与基线比较:SLM-SS在可懂度和一致性指标上显著优于判别式基线BSRNN和Sepformer。WER从接近30%大幅降低至7.24%,LPS从~0.89提升至0.954,MOS也有提升。这强有力地证明了生成式方法在保持语音语义信息方面的优势。
- 信号失真:所有方法都引入了不同程度的失真(TER > 0)。但SLM-SS的TER(45.8)低于两个判别式基线,说明其生成的语音在编码-解码循环中的内部一致性更好。
表2. 不同AR解码温度下的性能
| 温度 (Temp.) | 说话人相似度 (Spk sim) | 字错误率 (WER) ↓ | 令牌错误率 (TER) ↓ | Levenshtein音素相似度 (LPS) ↑ | SpeechBERTScore (SBS) ↑ |
|---|---|---|---|---|---|
| 0.5 | 38.9 | 49.1 | 69.3 | 0.581 | 0.695 |
| 0.9 | 73.1 | 10.2 | 56.9 | 0.900 | 0.845 |
| 1.0 | 91.7 | 7.24 | 45.8 | 0.954 | 0.913 |
| 1.1 | 77.8 | 9.7 | 52.0 | 0.949 | 0.895 |
| 1.5 | 54.2 | 64.6 | 87.8 | 0.178 | 0.497 |
关键结论:SLM-SS对温度参数敏感,但最佳性能出现在默认温度1.0,无需特别调优,这增加了其实用性。温度过高或过低都会导致性能急剧下降。
消融实验(码本数量):图2显示,随着使用的码本数量从1增加到8,WER从约35%下降至7.24%,LPS从约0.82上升至0.954,呈现明确的正相关。这表明使用更多的码本能显著提升重建质量。
⚖️ 评分理由
- 学术质量:5.0/7
- 创新性(3/3):明确提出了将SLM用于语音分离的完整框架,并设计了AR+NAR的混合生成机制,是清晰、有价值的创新。
- 技术正确性(1/2):方法逻辑自洽,实验设计合理,包含了必要的消融和对比。扣分在于模型(600M参数)和数据集(LibriMix)规模有限,对更复杂任务(如远场、强噪声)的鲁棒性和泛化能力缺乏验证。
- 实验充分性(1/2):实验在单一数据集上完成,虽有主观评估,但缺乏与更多最新生成式语音分离方法(如基于扩散模型的方法)的直接对比,也未讨论在不同噪声类型、说话人重叠度下的表现,结论的普适性存疑。
- 选题价值:1.5/2
- 前沿性(1/1):将LLM的成功经验引入语音处理是公认热点,论文切入点精准。
- 潜在影响与应用空间(0.5/1):解决语音分离的可懂度问题对语音识别、助听设备等应用至关重要。然而,论文未展示在真实世界复杂场景中的效果,也未讨论模型的推理效率(仅定性提到NAR提高效率),其实际部署价值有待进一步证明。
- 开源与复现加成:0.5/1
- 论文提供了Demo页面链接(https://herobrinelth.github.io/slm-ss),体现了可展示性。
- 但论文中未提及代码、预训练模型权重或训练配置文件的公开计划,关键训练细节(如优化器、batch size)缺失,这显著增加了复现难度。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及。
- 数据集:使用公开的LibriMix数据集。
- Demo:提供在线演示页面链接:https://herobrinelth.github.io/slm-ss。
- 复现材料:论文给出了模型参数规模(约600M)、学习率(5e-5)及调度策略(余弦退火+3epoch预热)、训练轮数(30)、AR解码的特殊策略(空白抑制, N-gram阻塞),但缺失优化器类型、Batch Size、具体硬件环境等关键细节。
- 论文中引用的开源项目:WavLM, Encodec, Whisper。