📄 SLM-SS: Speech Language Model for Generative Speech Separation

#语音分离 #语音大模型 #自回归模型 #语音增强

7.5/10 | 前25% | #语音分离 | #自回归模型 | #语音大模型 #语音增强

学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中

👥 作者与机构

  • 第一作者:Tianhua Li(上海交通大学计算机科学与技术学院, 教育部人工智能重点实验室, 听觉认知与计算声学实验室)
  • 通讯作者:Chenda Li†(同上; VUI Labs), Yanmin Qian†(同上; VUI Labs)
  • 作者列表:Tianhua Li(上海交通大学计算机科学与技术学院), Chenda Li(上海交通大学计算机科学与技术学院, VUI Labs), Wei Wang(上海交通大学计算机科学与技术学院), Xin Zhou(上海交通大学计算机科学与技术学院), Xihui Chen(上海交通大学计算机科学与技术学院), Jianqing Gao(科大讯飞股份有限公司AI研究院), Yanmin Qian(上海交通大学计算机科学与技术学院, VUI Labs)

💡 毒舌点评

亮点在于将语音语言模型的生成范式用于语音分离,直指传统判别方法在“可懂度”上的软肋,并且用AR+NAR混合解码来平衡质量与效率,思路清晰且新颖。短板是模型规模仅为600M参数、仅在LibriMix单一数据集上验证,缺乏在更复杂真实场景(如强噪声、多说话人)和更大规模数据集上的锤炼,说服力打了折扣。

📌 核心摘要

  1. 要解决的问题:传统判别式语音分离方法在波形重建的信号指标上表现良好,但往往引入失真,导致分离后语音的可懂度下降,进而损害自动语音识别等下游任务的性能。
  2. 方法核心:提出SLM-SS框架,将语音分离视为离散多码本序列生成问题。首先使用Encodec编码器将语音转换为离散码本序列,并利用SOT策略进行拼接;然后采用基于WavLM编码器和Whisper式解码器的自回归(AR)模型预测零阶码本;接着,使用一个非自回归(NAR)模型基于低阶码本顺序预测高阶码本;最后,通过码本切分与Encodec解码器重建出分离后的单人语音。
  3. 新意:与先前的判别式方法(如BSRNN, Sepformer)和部分生成式方法不同,SLM-SS首次系统性地将语音语言模型(SLM)的建模能力引入语音分离任务,并创新性地结合了AR和NAR生成策略,以提升效率。
  4. 主要实验结果:在LibriMix数据集上,SLM-SS在下游任务一致性指标上显著优于基线。其字错误率(WER)为7.24,远低于BSRNN(29.8)和Sepformer(28.7),接近地面真值(5.19)。其Levenshtein音素相似度(LPS)为0.954,也优于基线(BSRNN: 0.885, Sepformer: 0.890)。主观平均意见得分(MOS)SLM-SS为4.19,高于BSRNN(4.01)和Sepformer(3.98)。消融实验证明,随着使用码本数量从1增加到8,WER下降,LPS上升;AR解码温度为1.0时性能最佳。

fig1

图1. SLM-SS 框架概述。(a) Encodec将单人语音编码为多码本序列,然后使用SOT进行合并。(b) AED模型预测零阶码本序列。(c) NAR模型在给定低阶码本的基础上顺序预测高阶码本序列。(d) SOT序列被分割为单人序列,然后解码为音频。(e) NAR解码器采用多个独立的令牌嵌入来整合所有低阶序列信息。

fig2

图2. 随码本数量变化的WER和LPS曲线图。该图展示了随着所使用的码本数量(从1到8)增加,WER(左轴,虚线)呈下降趋势,LPS(右轴,实线)呈上升趋势,表明更多的码本有助于提升分离语音的质量和可懂度。

  1. 实际意义:为语音分离任务提供了一种新的生成式建模范式,有望显著提升分离结果在语音识别、说话人识别等下游任务中的实用性能。
  2. 主要局限性:受限于NAR模型的训练难度,仅使用了Encodec的前8个码本(共32个),导致重建语音存在不可避免的信息损失和失真;模型验证规模有限,仅在单一数据集LibriMix上进行,缺乏在更复杂现实场景下的泛化能力证明。

🏗️ 模型架构

SLM-SS的整体流程如图1所示,可分为编码、建模、解码三个阶段:

  1. 语音编码与序列化:

    • 使用预训练的Encodec模型将连续的单人语音波形转换为离散的多码本令牌序列。对于每个音频片段,其输出包含C个码本(m=32),每个码本大小为1024。论文实验中使用了前8个码本。
    • 采用序列化输出训练(SOT)策略,将不同说话人的离散序列拼接成一个序列,以处理多说话人场景。序列以<SOS>开始,用<SC>分隔不同说话人,以<EOS>结束。其数学表示为公式(1):C = [c0, c1, ..., cm-1],其中ci是第i阶码本对应的SOT序列。
    • 在解码前,需要根据<SC>符号将模型输出的多说话人序列切分回单个说话人的序列。
  2. 自回归(AR)建模:

    • 编码器:采用预训练的WavLM-large模型,并对其参数进行微调。为了融合WavLM各层的特征,设计了一个线性层将所有隐藏层的特征拼接后融合,再经过层归一化得到混合语音的深度特征H
    • 解码器:架构参考Whisper,但参数量更小(16层Transformer)。其词汇表V由Encodec的1024个令牌和3个特殊符号(<SOS>, <SC>, <EOS>)组成。
    • 建模过程:解码器基于历史预测的令牌[c1_0, ..., cn-1_0]和编码器输出的特征H,通过交叉注意力机制,自回归地预测零阶码本(第0阶)的第n个令牌cn_0,其概率分布为公式(3):on = Decoder([c1_0, ..., cn-1_0], H)
  3. 非自回归(NAR)建模:

    • 架构:与AR模型结构相同,但解码器移除了单向注意力掩码,使其可以并行预测所有位置的输出。
    • 核心设计:为预测第i阶码本序列,模型需要同时考虑所有更低阶(j < i)的码本序列信息。为此,论文设计了8个独立的令牌嵌入层(每个对应一阶码本),它们共享相同的位置编码。此外,引入任务嵌入Ti来指示当前预测的是哪一阶码本。
    • 输入融合:所有低阶码本序列的令牌,分别通过其对应的独立嵌入层Emb(cj; θj)进行嵌入,然后求和,再加上位置编码P和任务嵌入Ti,得到总输入嵌入Ei(公式(4))。
    • 输出预测:Ei经过一系列Transformer层得到Hi,最后通过一个投影层映射到第i阶码本的令牌嵌入空间Wi,经Softmax得到该阶所有令牌的概率分布Oi(公式(5)):Oi = Softmax(Hi * Wi^T)。这个过程是逐阶串行进行的。
  4. 语音解码:

    • 将AR和NAR模型预测出的、并经过切分的多阶码本序列,送入Encodec的解码器,最终恢复出单人语音波形。

💡 核心创新点

  1. 范式迁移:首次将语音语言模型(SLM)的建模范式系统性地应用于语音分离任务。不同于判别式方法直接回归波形或掩码,SLM-SS将问题重构为离散令牌序列的生成,利用语言建模能力来提升分离语音的语义连贯性和可懂度。
  2. 混合解码方案:创新性地结合了自回归(AR)和非自回归(NAR)两种生成策略。AR模型用于预测携带主要声学和语义信息的零阶码本,确保序列的整体连贯性;NAR模型则高效地预测高阶码本以补充细节,提升了整体解码效率。
  3. 多码本与SOT处理:充分利用了神经音频编解码器(Encodec)的多层码本结构,并借鉴ASR中的SOT策略,优雅地解决了多说话人序列的建模和变长说话人数量的问题,通过特殊符号<SC>实现说话人切换的显式建模。
  4. 面向下游任务的评估:在评估中不仅关注传统的信号级指标(如SDR),更强调了语音可懂度(WER, LPS, SBS)和说话人一致性(Spk sim),并指出这些指标更能反映语音分离对实际应用的影响。

🔬 细节详述

  • 训练数据:
    • 数据集:LibriMix(包含Libri2Mix和Libri3Mix),使用了100小时和360小时的训练子集,在测试集上评估。
    • 预处理:使用Encodec将原始音频转换为离散令牌序列。论文指出,其模型是在8阶Encodec码本上训练,而非原始波形,因此有效上界是8阶码本重建的音频。
  • 损失函数:论文未明确说明损失函数的具体形式。根据任务(序列生成)和模型(AR/NAR),可以合理推测AR阶段使用交叉熵损失预测下一个令牌,NAR阶段同样使用交叉熵损失预测对应阶码本的令牌分布。但具体细节未提供。
  • 训练策略:
    • 总体:训练30个epoch。
    • 学习率:初始学习率为5e-5,使用余弦退火衰减,并在前3个epoch进行线性预热。
    • 优化器:未说明。
    • Batch Size:未说明。
  • 关键超参数:
    • 模型参数量:总计约600M。
    • 编码器:WavLM-large(预训练并微调)。
    • 解码器:16层Transformer,维度参照Whisper-medium,但调整了词汇表大小。
    • Encodec码本:总码本阶数C=32,词汇量|C|=1024。实验中使用前k=8阶。
    • NAR模型:设计了8个独立的令牌嵌入层。
  • 训练硬件:未说明。
  • 推理细节:
    • AR阶段:使用束搜索(Beam Search),并应用了空白抑制和N-gram阻塞,以避免空预测和无限重复。
    • 温度:论文对AR阶段的温度进行了消融实验(表2),结果显示温度为1.0时性能最佳。
  • 正则化或稳定训练技巧:未特别提及。

📊 实验结果

表1. SLM-SS与现有方法的总体比较

方法说话人相似度 (Spk sim)字错误率 (WER) ↓令牌错误率 (TER) ↓Levenshtein音素相似度 (LPS) ↑SpeechBERTScore (SBS) ↑平均意见得分 (MOS) ↑
GT (原始音频)-5.19-1.0001.0004.60
GT-Encodec3293.56.0324.70.9750.9574.34
GT-Encodec8 (上界)92.86.3139.00.9700.9444.11
BSRNN92.629.867.20.8850.8854.01
Sepformer89.728.773.90.8900.8823.98
SLM-SS91.77.2445.80.9540.9134.19

注:GT-Encodec32表示使用全部32阶码本重建的音频,GT-Encodec8表示仅使用前8阶码本重建的音频(作为本方法的有效上界)。

关键结论:

  1. 与上界比较:SLM-SS在几乎所有指标上都优于其自身重建上界(GT-Encodec8),尤其是在WER(7.24 vs 6.31)和LPS(0.954 vs 0.970)上差距较小,说明模型生成质量很高。
  2. 与基线比较:SLM-SS在可懂度和一致性指标上显著优于判别式基线BSRNN和Sepformer。WER从接近30%大幅降低至7.24%,LPS从~0.89提升至0.954,MOS也有提升。这强有力地证明了生成式方法在保持语音语义信息方面的优势。
  3. 信号失真:所有方法都引入了不同程度的失真(TER > 0)。但SLM-SS的TER(45.8)低于两个判别式基线,说明其生成的语音在编码-解码循环中的内部一致性更好。

表2. 不同AR解码温度下的性能

温度 (Temp.)说话人相似度 (Spk sim)字错误率 (WER) ↓令牌错误率 (TER) ↓Levenshtein音素相似度 (LPS) ↑SpeechBERTScore (SBS) ↑
0.538.949.169.30.5810.695
0.973.110.256.90.9000.845
1.091.77.2445.80.9540.913
1.177.89.752.00.9490.895
1.554.264.687.80.1780.497

关键结论:SLM-SS对温度参数敏感,但最佳性能出现在默认温度1.0,无需特别调优,这增加了其实用性。温度过高或过低都会导致性能急剧下降。

消融实验(码本数量):图2显示,随着使用的码本数量从1增加到8,WER从约35%下降至7.24%,LPS从约0.82上升至0.954,呈现明确的正相关。这表明使用更多的码本能显著提升重建质量。

⚖️ 评分理由

  • 学术质量:5.0/7
    • 创新性(3/3):明确提出了将SLM用于语音分离的完整框架,并设计了AR+NAR的混合生成机制,是清晰、有价值的创新。
    • 技术正确性(1/2):方法逻辑自洽,实验设计合理,包含了必要的消融和对比。扣分在于模型(600M参数)和数据集(LibriMix)规模有限,对更复杂任务(如远场、强噪声)的鲁棒性和泛化能力缺乏验证。
    • 实验充分性(1/2):实验在单一数据集上完成,虽有主观评估,但缺乏与更多最新生成式语音分离方法(如基于扩散模型的方法)的直接对比,也未讨论在不同噪声类型、说话人重叠度下的表现,结论的普适性存疑。
  • 选题价值:1.5/2
    • 前沿性(1/1):将LLM的成功经验引入语音处理是公认热点,论文切入点精准。
    • 潜在影响与应用空间(0.5/1):解决语音分离的可懂度问题对语音识别、助听设备等应用至关重要。然而,论文未展示在真实世界复杂场景中的效果,也未讨论模型的推理效率(仅定性提到NAR提高效率),其实际部署价值有待进一步证明。
  • 开源与复现加成:0.5/1
    • 论文提供了Demo页面链接(https://herobrinelth.github.io/slm-ss),体现了可展示性。
    • 但论文中未提及代码、预训练模型权重或训练配置文件的公开计划,关键训练细节(如优化器、batch size)缺失,这显著增加了复现难度。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及。
  • 数据集:使用公开的LibriMix数据集。
  • Demo:提供在线演示页面链接:https://herobrinelth.github.io/slm-ss。
  • 复现材料:论文给出了模型参数规模(约600M)、学习率(5e-5)及调度策略(余弦退火+3epoch预热)、训练轮数(30)、AR解码的特殊策略(空白抑制, N-gram阻塞),但缺失优化器类型、Batch Size、具体硬件环境等关键细节。
  • 论文中引用的开源项目:WavLM, Encodec, Whisper。

← 返回 ICASSP 2026 论文分析