ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-Based Neural Speech Codec
📄 ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-Based Neural Speech Codec #语音增强 #生成模型 #模型/架构 #神经网络编解码器 #实时处理 ✅ 7.5/10 | 前25% | #语音增强 | #生成模型 | #模型/架构 #神经网络编解码器 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Liu(中国科学技术大学语音及语言信息处理国家工程研究中心) 通讯作者:Yang Ai(中国科学技术大学语音及语言信息处理国家工程研究中心) 作者列表:Fei Liu(中国科学技术大学语音及语言信息处理国家工程研究中心),Yang Ai*(中国科学技术大学语音及语言信息处理国家工程研究中心) 💡 毒舌点评 本文巧妙地将组向量量化(GVQ)这一常用于编解码器的并行思想,移植到生成式语音增强框架中,实现了“用独立的VQ产出独立的token,从而支持并行预测”这一核心洞察,逻辑自洽且效果显著。其短板在于,作为生成模型,其在精细频谱结构重建上(由LSD指标反映)仍略逊于顶尖的判别式模型,这或许是生成范式与回归范式在优化目标上的根本差异所导致的。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://anonymity225.github.io/ParaGSE/。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中使用了公开数据集(VoiceBank, DEMAND, DNS Challenge RIR),但未提供处理后或组合好的数据集下载链接。 Demo:论文中未提及在线演示。 复现材料:论文提供了非常详细的超参数(模型维度、层数、学习率、优化器设置等)、损失函数公式和训练配置,为复现提供了坚实基础。 引用的开源项目:论文引用了多个开源工作,如MDCTCodec [16]、ConvNeXt v2 [17]、Conformer [22] 等,但未明确说明代码实现是否直接依赖这些项目的代码库。 📌 核心摘要 要解决的问题:现有生成式语音增强方法(如GenSE, Genhancer)面临模型复杂度高、生成效率低(多为串行自回归预测)以及性能受限的挑战。 方法核心:提出ParaGSE框架,核心是使用一个基于组向量量化(GVQ)的神经语音编解码器(G-MDCTCodec)。GVQ将编码特征分组并独立量化,产出一组相互独立的离散token。在此基础上,ParaGSE采用并行的轻量级分支,直接根据带噪token和频谱特征,同时预测所有对应的干净token,最后由解码器重建语音。 与已有方法相比新在哪里:与依赖大语言模型(GenSE)或残差向量量化(RVQ)进行串行自回归预测(Genhancer)的方法相比,本文首次在生成式增强中引入GVQ和并行预测机制,彻底摆脱了对前序token的依赖,从而实现了计算效率的飞跃。与判别式模型相比,它将优化目标从波形/频谱回归转变为token分类。 主要实验结果:在去噪、去混响和混合失真抑制三项任务上,ParaGSE在多数客观指标(如NISQA, DNSMOS, UTMOS)和主观ABX测试中均优于或持平于基线模型(包括CMGAN, MP-SENet, Genhancer)。特别是在混合失真抑制任务上优势显著。效率方面,与串行基线(SerialGSE)相比,ParaGSE在CPU上的实时率(RTF)降低了约50%,速度提升约1.5倍(从0.0696降至0.0466)。 实际意义:该框架为实时、高效的语音增强提供了一种新范式,尤其适合在CPU等计算资源受限的边缘设备上部署,适用于通信、会议等实时应用场景。 主要局限性:在侵入式指标(LSD)上,其性能略弱于最强的判别式模型,表明生成模型在精确还原频谱细节上可能仍有差距。论文未报告在真实复杂声场下的性能。 🏗️ 模型架构 本文提出的方法包含两个紧密耦合的组件:G-MDCTCodec(组向量量化语音编解码器)和ParaGSE(并行生成式语音增强框架)。 ...