MixGAN-based Non-blind Bandwidth Extension for Audio Codec

📄 MixGAN-based Non-blind Bandwidth Extension for Audio Codec #音频增强 #生成对抗网络 #音频编解码器 #非盲 #实时处理 🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院) 通讯作者:Wenbo Ding(清华大学深圳国际研究生院,邮箱:ding.wenbo@sz.tsinghua.edu.cn) 作者列表:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院)、BingYin Xia(华为中央媒体技术研究院)、Xiao-Ping Zhang(清华大学深圳国际研究生院)、Wenbo Ding(清华大学深圳国际研究生院) 💡 毒舌点评 本文首次将非盲AI带宽扩展(BWE)方案系统性地落地到音频编解码器框架中,并通过MixGAN创新性地解决了GAN训练在频谱扩展任务上易崩溃的难题,工程导向明确且效果显著。然而,论文对核心侧信息模型(side model)的“AI-based”部分描述过于简略(仅提到5个ConvM和1个MLP),且训练数据集描述模糊(“130小时以中文歌曲为主”),这给工作通用性的评估和完整复现埋下了隐患。 📌 核心摘要 问题:现有的AI带宽扩展(BWE)方法很少考虑集成到实际音频编解码器时面临的约束,如比特流兼容性、处理延迟和解码失真。 方法:本文提出了首个面向音频编解码器的非盲AI-BWE框架。该框架在编码端提取少量比特的侧信息(包括频带包络和侧特征),在解码端以低延迟帧处理方式(2048样本,43ms)利用该信息引导从低频重建高频。核心创新是提出了MixGAN框架(通过线性插值混合真实与生成帧来训练判别器)和三阶段训练策略(单帧预热、单帧对抗、重叠优化)。 创新点:1) 首个解决编解码器实际约束的非盲AI-BWE方案;2) MixGAN稳定了对抗训练,提升了重建保真度;3) 模型对量化失真具有固有鲁棒性。 实验:在8kHz->24kHz的BWE任务上,与多种AI方法(HiFi-GAN+, NU-Wave2)和标准方法(EVS)对比。在语音和音频测试集上,所提方法(Non-blind BWE)取得了最佳的MUSHRA主观评分(语音84.44,音频84.28)和最低的LSD客观指标(语音0.846,音频0.663)。同时,其浮点运算量(FLOPs)和实时因子(RTF)远低于其他AI基线,计算效率高。 方案 语音 MUSHRA↑ 语音 LSD↓ 音频 MUSHRA↑ 音频 LSD↓ 解码LF (基准) 55.25 1.418 46.75 3.055 HiFi-GAN+ 54.84 1.561 40.63 1.686 NU-Wave2 59.72 1.664 48.44 2.161 EVS (规则) 77.44 0.980 76.72 1.051 Blind BWE 74.66 1.077 74.56 0.840 Non-blind BWE (Vanilla) 69.52 0.915 66.32 0.725 Non-blind BWE (Proposed) 84.44 0.846 84.28 0.663 (图4显示,在复杂频谱结构的交响乐片段中,所提方法(e)能准确恢复谐波细节,而HiFi-GAN+(a)和NU-Wave2(b)表现较差。) ...

2026-04-29