WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models
📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #模型压缩 🔥 9.4/10 | 前25% | #语音合成 | #生成对抗网络 | #模型压缩 | arxiv 学术质量 6.2/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 未提及具体作者姓名。论文页脚显示该工作部分由JSPS KAKENHI Grants (JP21H05054, JP23K21681, JP24K0296, JP25H01139) 和 JST NEXUS (JPMJNX25C1) 支持,表明研究可能在日本进行。 💡 毒舌点评 这篇论文的核心动机清晰:打破GAN和扩散模型在声码器领域的架构壁垒。其提出的统一ConvNeXt框架在理论上是优雅的,实验也展现了令人印象深刻的推理速度提升,尤其是在CPU上。然而,这种“统一”更像是一种架构复用,而非算法层面的深度融合。将GAN和扩散模型的训练策略强行嫁接到同一个生成器骨架上,虽然高效,但并未提出解决二者根本矛盾的新理论。例如,扩散模型的采样效率问题仅通过子模型和BDDM的噪声调度缓解,并未在生成器架构层面有实质性创新。此外,论文声称解决了“多说话人性能有限”的问题,但实验仅在单一英文数据集LibriTTS-R上进行,说服力有限。作者坦诚了模型尺寸随子模型数量线性增长的问题,但这在资源敏感的场景下是显著的缺点。总体而言,这是一篇扎实的工程优化论文,将现有技术(ConvNeXt、子模型训练、BDDM)巧妙组合,取得了显著的性能提升,但理论创新性稍显不足。 📌 核心摘要 本文提出了WaveNeXt 2,一个基于ConvNeXt架构的统一神经声码器框架,可兼容GAN和扩散模型两种范式。其核心创新在于引入了残差去噪和子模型结构,使每个子模型能在推理过程中逐步优化波形。实验在LibriTTS-R多说话人数据集上进行,结果表明:(1) GAN-WaveNeXt 2在保持与HiFi-GAN、WaveFit相当合成质量的同时,实现了显著更快的推理速度(相比WaveFit,GPU RTF降低70%,CPU降低90%)。(2) Diff-WaveNeXt 2在采用子模型训练后,相比4步FastDiff,具有竞争力的质量和更快的推理速度(CPU RTF降低80%),且训练时间极短(仅32小时),适合资源受限的应用。 🔗 开源详情 代码:论文自身未提供代码仓库链接。但引用了以下第三方开源实现: ParallelWaveGAN (用于实现HiFi-GAN V1): https://github.com/kan-bayashi/ParallelWaveGAN wavefit-pytorch (WaveFit实现): https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff: https://github.com/Rongjiehuang/FastDiff Vocos (ConvNeXt生成器基础): https://github.com/gemelo-ai/vocos 模型权重:未提及任何模型权重的下载链接。 数据集:使用LibriTTS-R数据集。论文未直接提供链接,但该数据集可通过Hugging Face等平台获取,例如:https://huggingface.co/datasets/hf-internal-testing/libritts_r。论文使用的子集为train-clean-100、train-clean-360(训练)和test-clean-100(评估)。 Demo:提供了项目主页和语音样本演示页面:https://37integer.github.io/WAVENEXT-2。 复现材料:未提及具体的训练配置文件、模型检查点或详细的附录文档链接。 🏗️ 方法概述和架构 WaveNeXt 2框架的核心是一个可复用的WaveNeXt-based生成器,其设计目标是通过统一的残差去噪和子模型结构,适配GAN与扩散两种训练范式。 ...