ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-Based Neural Speech Codec

📄 ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-Based Neural Speech Codec #语音增强 #生成模型 #模型/架构 #神经网络编解码器 #实时处理 ✅ 7.5/10 | 前25% | #语音增强 | #生成模型 | #模型/架构 #神经网络编解码器 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Liu(中国科学技术大学语音及语言信息处理国家工程研究中心) 通讯作者:Yang Ai(中国科学技术大学语音及语言信息处理国家工程研究中心) 作者列表:Fei Liu(中国科学技术大学语音及语言信息处理国家工程研究中心),Yang Ai*(中国科学技术大学语音及语言信息处理国家工程研究中心) 💡 毒舌点评 本文巧妙地将组向量量化(GVQ)这一常用于编解码器的并行思想,移植到生成式语音增强框架中,实现了“用独立的VQ产出独立的token,从而支持并行预测”这一核心洞察,逻辑自洽且效果显著。其短板在于,作为生成模型,其在精细频谱结构重建上(由LSD指标反映)仍略逊于顶尖的判别式模型,这或许是生成范式与回归范式在优化目标上的根本差异所导致的。 📌 核心摘要 要解决的问题:现有生成式语音增强方法(如GenSE, Genhancer)面临模型复杂度高、生成效率低(多为串行自回归预测)以及性能受限的挑战。 方法核心:提出ParaGSE框架,核心是使用一个基于组向量量化(GVQ)的神经语音编解码器(G-MDCTCodec)。GVQ将编码特征分组并独立量化,产出一组相互独立的离散token。在此基础上,ParaGSE采用并行的轻量级分支,直接根据带噪token和频谱特征,同时预测所有对应的干净token,最后由解码器重建语音。 与已有方法相比新在哪里:与依赖大语言模型(GenSE)或残差向量量化(RVQ)进行串行自回归预测(Genhancer)的方法相比,本文首次在生成式增强中引入GVQ和并行预测机制,彻底摆脱了对前序token的依赖,从而实现了计算效率的飞跃。与判别式模型相比,它将优化目标从波形/频谱回归转变为token分类。 主要实验结果:在去噪、去混响和混合失真抑制三项任务上,ParaGSE在多数客观指标(如NISQA, DNSMOS, UTMOS)和主观ABX测试中均优于或持平于基线模型(包括CMGAN, MP-SENet, Genhancer)。特别是在混合失真抑制任务上优势显著。效率方面,与串行基线(SerialGSE)相比,ParaGSE在CPU上的实时率(RTF)降低了约50%,速度提升约1.5倍(从0.0696降至0.0466)。 实际意义:该框架为实时、高效的语音增强提供了一种新范式,尤其适合在CPU等计算资源受限的边缘设备上部署,适用于通信、会议等实时应用场景。 主要局限性:在侵入式指标(LSD)上,其性能略弱于最强的判别式模型,表明生成模型在精确还原频谱细节上可能仍有差距。论文未报告在真实复杂声场下的性能。 🏗️ 模型架构 本文提出的方法包含两个紧密耦合的组件:G-MDCTCodec(组向量量化语音编解码器)和ParaGSE(并行生成式语音增强框架)。 G-MDCTCodec 架构 (图1a) 输入/输出:输入为语音波形,输出为重建后的语音波形。其编码器和解码器均基于1D ConvNeXt v2块处理MDCT频谱。 编码器 (Encoder):将语音MDCT频谱编码为高维向量 e ∈ RK。 组向量量化器 (GVQ):这是核心创新点。它沿特征维度将 e 分成 N 个组(例如N=4),得到 N 个特征向量 en ∈ RK/N。每个组使用独立的码本 Wn(大小为 M)进行向量量化,通过最近邻查找得到量化向量 ê_n 和离散令牌 d_n。最后将所有组的量化向量拼接回原始维度,得到最终量化向量 ê。关键设计:与传统的串行残差向量量化(RVQ)不同,GVQ的各组量化是相互独立、并行的,这为后续的并行预测奠定了基础。 解码器 (Decoder):将量化向量 ê 解码回语音波形。 训练:G-MDCTCodec的训练是独立的,使用对抗损失、MDCT频谱损失、梅尔频谱损失以及新增的GVQ损失(量化误差MSE),旨在获得高质量的语音编解码能力。 ParaGSE 架构 (图1b) 输入/输出:输入为带噪/失真语音 y,输出为增强后的干净语音 x̂。 整体流程:1) y 通过G-MDCTCodec的编码器和GVQ,得到一组“退化令牌” {d(y)_n}。2) 同时,一个频谱特征提取模块从 y 提取全局频谱特征 ŝ。3) N 个并行预测分支以退化令牌和频谱特征为输入,独立预测对应的干净令牌 d̂(x)_n。4) 所有预测的干净令牌通过G-MDCTCodec的解码器,重建出增强语音。 频谱特征提取模块:使用STFT获取幅度和相位谱,经卷积下采样后,通过BiLSTM和Conformer块建模,得到特征向量 ŝ。它为每个预测分支提供全局上下文。 并行预测分支 (PPB):每个分支 PPB_n 对应一个GVQ组。它将退化令牌 d(y)_n 通过一个可训练的嵌入表(码本 Un)映射为向量 v_n,与频谱特征 ŝ 拼接后,经过BiLSTM和Conformer处理,最终通过Softmax输出在干净码本 Wn 上的概率分布,通过采样(训练时为交叉熵,推理时为argmax)得到预测的干净令牌 d̂(x)_n。 训练:训练ParaGSE时,冻结G-MDCTCodec的所有参数。仅训练频谱特征提取模块和N个并行预测分支。损失函数为预测干净令牌概率分布与目标(由G-MDCTCodec编码干净语音得到)的交叉熵损失之和。 💡 核心创新点 引入组向量量化(GVQ)神经语音编解码器:提出G-MDCTCodec,通过将编码特征分组并独立量化,生成一组相互独立的离散令牌。与主流RVQ的串行依赖结构相比,GVQ的并行独立结构是实现后续并行增强的前提,且实验表明其编解码质量未受明显影响。 提出并行令牌预测的生成式增强框架:基于GVQ的独立令牌特性,设计了ParaGSE框架。其核心创新在于用N个轻量级并行分支直接从退化令牌映射到干净令牌,彻底摒弃了自回归预测(预测下一个令牌需依赖前一个)的模式。这直接解决了生成式SE方法效率低下的核心瓶颈。 无需语义令牌依赖:与GenSE等依赖外部预训练模型提供语义令牌的方法不同,ParaGSE的输入仅为原始退化语音通过自身编解码器得到的声学令牌,简化了系统复杂度和对外部模型的依赖。 🔬 细节详述 训练数据: 干净语音:VoiceBank语料库,训练集23,075条(56位说话人),测试集824条(2位未见说话人),采样率16kHz。 失真构建: 去噪:训练使用DEMAND数据集10种噪声,SNR 0-15dB;测试使用5种未见噪声,SNR 2.5-17.5dB。 去混响:使用DNS Challenge提供的RIR数据集(248个真实+~60,000个模拟RIR),训练与测试使用未见的RIR。 混合失真:在干净语音上依次添加混响、噪声,最后下采样至8kHz。 损失函数: G-MDCTCodec训练损失:对抗损失 + MDCT频谱损失 + 梅尔频谱损失 + GVQ损失(公式3:各VQ的量化误差MSE之和)。 ParaGSE训练损失:冻结编解码器,仅优化增强网络。损失为N个并行分支的交叉熵损失之和(公式8): L = Σ CrossEntropy( p̂(x)_n , p(x)_n ),目标 p(x)_n 是干净语音经编码量化后生成的one-hot分布。 训练策略: 优化器:AdamW (β1=0.9, β2=0.95, weight_decay=0.01)。 学习率:初始0.0005,使用余弦退火策略,并在前10k步使用warm-up。 训练轮数:100 epochs。 硬件:单卡Nvidia A800 GPU。 关键超参数: G-MDCTCodec:N=4个VQ,每个码本大小M=256,码本向量维度K/N=8(总维度K=32)。 频谱特征提取模块:STFT帧长320,帧移ws=40,FFT大小1024。下采样模块:3层卷积(核大小3,步长2),总下采样因子R=8。 并行预测分支与特征提取模块:使用Conformer块,通道数C=512,注意力头数8。 推理细节: 并行预测分支在推理时对每个分支的Softmax输出取argmax(公式7)得到预测令牌,而非采样,这是为了确定性输出。 实时率(RTF)测试环境:GPU为Nvidia A800,CPU为Intel(R) Xeon(R) Silver 4314。 📊 实验结果 表1:G-MDCTCodec与MDCTCodec编解码质量对比 ...

2026-04-29