Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models
📄 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models #语音合成 #卷积神经网络 #扩散模型 #对抗生成网络 🔥 9.0/10 | 前25% | #语音合成 | #卷积神经网络 | #扩散模型 #对抗生成网络 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Wangzixi Zhou(奈良先端科学技术大学院大学 & 日本信息通信研究机构) 通讯作者:未说明 作者列表:Wangzixi Zhou(奈良先端科学技术大学院大学 & 日本信息通信研究机构)、Takuma Okamoto(日本信息通信研究机构)、Yamato Ohtani(日本信息通信研究机构)、Sakriani Sakti(奈良先端科学技术大学院大学)、Hisashi Kawai(日本信息通信研究机构) 💡 毒舌点评 该论文的最大亮点在于其“统一框架”的野心和务实的工程优化,用一个基于ConvNeXt的模块巧妙兼容了GAN与扩散两条技术路线,特别是将扩散模型声码器的训练时间压缩到32小时,对资源敏感场景极具吸引力。然而,其创新更多是架构整合与效率优化,而非底层原理突破,且随着迭代次数增加,模型大小线性膨胀(从15M到75M)的短板在资源严格受限的边缘设备上可能会抵消其部分速度优势。 📌 核心摘要 要解决什么问题:现有神经声码器大多局限于GAN或扩散模型中的一种,难以统一;且原始的ConvNeXt声码器(如WaveNeXt)在多说话人场景下性能有限。 方法核心是什么:提出WaveNeXt 2,一个统一的ConvNeXt生成器框架,其核心是残差去噪子模型设计。生成器预测的是每一步的噪声分量,而非直接预测波形,从而使同一架构可适配GAN(采用固定点���代)和扩散模型(采用分阶段子模型训练)两种训练范式。 与已有方法相比新在哪里:首次将ConvNeXt架构同时应用于GAN和扩散声码器;通过子模型训练策略改进了原始WaveNeXt在多说话人上的不足;简化了WaveFit的训练流程(移除了不必要的初始噪声和增益调整)。 主要实验结果如何:在多说话人数据集LibriTTS-R上进行验证,结果如下表所示。GAN-WaveNeXt 2在推理速度上显著优于WaveFit和HiFi-GAN,同时保持质量相当;Diff-WaveNeXt 2在训练效率(仅需32小时)和CPU推理速度上远超FastDiff,并取得竞争性的质量。 模型 RTF (CPU) ↓ UTMOS ↑ NISQA ↑ 训练时间 (GPU) GAN-WaveNeXt 2 (4 iter) 0.20 4.04 ± 0.09 4.01 ± 0.20 410 小时 WaveFit (5 iter) 5.36 4.04 ± 0.09 4.02 ± 0.19 410 小时 HiFi-GAN V1 0.80 4.05 ± 0.11 3.99 ± 0.22 270 小时 Diff-WaveNeXt 2 0.16 3.87 ± 0.05 3.81 ± 0.19 32 小时 FastDiff w/ sub-modeling 0.80 3.78 ± 0.06 3.67 ± 0.20 96 小时 实际意义是什么:为声码器选择提供了灵活方案:GAN-WaveNeXt 2适用于对合成质量要求极高的场景,而Diff-WaveNeXt 2则以其极快的训练速度和优秀的CPU推理能力,非常适合资源受限或需要快速迭代的应用。 主要局限性是什么:采用子模型策略后,模型总体参数量随子模型数量线性增长(如Diff-WaveNeXt 2达57.68M),增加了存储和部分计算负担。论文中未明确讨论其在流式处理中的应用。 🏗️ 模型架构 WaveNeXt 2 的整体架构旨在成为一个兼容GAN与扩散模型的统一生成器。 ...