ICASSP 2026 - 音频增强
共 3 篇论文
📋 论文详情
🥇 MixGAN-based Non-blind Bandwidth Extension for Audio Codec
🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲
👥 作者与机构
- 第一作者:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院)
- 通讯作者:Wenbo Ding(清华大学深圳国际研究生院,邮箱:ding.wenbo@sz.tsinghua.edu.cn)
- 作者列表:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院)、BingYin Xia(华为中央媒体技术研究院)、Xiao-Ping Zhang(清华大学深圳国际研究生院)、Wenbo Ding(清华大学深圳国际研究生院)
💡 毒舌点评
本文首次将非盲AI带宽扩展(BWE)方案系统性地落地到音频编解码器框架中,并通过MixGAN创新性地解决了GAN训练在频谱扩展任务上易崩溃的难题,工程导向明确且效果显著。然而,论文对核心侧信息模型(side model)的“AI-based”部分描述过于简略(仅提到5个ConvM和1个MLP),且训练数据集描述模糊(“130小时以中文歌曲为主”),这给工作通用性的评估和完整复现埋下了隐患。
📌 核心摘要
- 问题:现有的AI带宽扩展(BWE)方法很少考虑集成到实际音频编解码器时面临的约束,如比特流兼容性、处理延迟和解码失真。
- 方法:本文提出了首个面向音频编解码器的非盲AI-BWE框架。该框架在编码端提取少量比特的侧信息(包括频带包络和侧特征),在解码端以低延迟帧处理方式(2048样本,43ms)利用该信息引导从低频重建高频。核心创新是提出了MixGAN框架(通过线性插值混合真实与生成帧来训练判别器)和三阶段训练策略(单帧预热、单帧对抗、重叠优化)。
- 创新点:1) 首个解决编解码器实际约束的非盲AI-BWE方案;2) MixGAN稳定了对抗训练,提升了重建保真度;3) 模型对量化失真具有固有鲁棒性。
- 实验:在8kHz->24kHz的BWE任务上,与多种AI方法(HiFi-GAN+, NU-Wave2)和标准方法(EVS)对比。在语音和音频测试集上,所提方法(Non-blind BWE)取得了最佳的MUSHRA主观评分(语音84.44,音频84.28)和最低的LSD客观指标(语音0.846,音频0.663)。同时,其浮点运算量(FLOPs)和实时因子(RTF)远低于其他AI基线,计算效率高。
| 方案 | 语音 MUSHRA↑ | 语音 LSD↓ | 音频 MUSHRA↑ | 音频 LSD↓ |
|---|---|---|---|---|
| 解码LF (基准) | 55.25 | 1.418 | 46.75 | 3.055 |
| HiFi-GAN+ | 54.84 | 1.561 | 40.63 | 1.686 |
| NU-Wave2 | 59.72 | 1.664 | 48.44 | 2.161 |
| EVS (规则) | 77.44 | 0.980 | 76.72 | 1.051 |
| Blind BWE | 74.66 | 1.077 | 74.56 | 0.840 |
| Non-blind BWE (Vanilla) | 69.52 | 0.915 | 66.32 | 0.725 |
| Non-blind BWE (Proposed) | 84.44 | 0.846 | 84.28 | 0.663 |
(图4显示,在复杂频谱结构的交响乐片段中,所提方法(e)能准确恢复谐波细节,而HiFi-GAN+(a)和NU-Wave2(b)表现较差。)
- 意义:为在低比特率通信系统中实现高质量、低延迟的通用音频编解码器提供了新的技术路径,特别是在蓝牙耳机、无线通话等场景中具有直接应用潜力。
- 局限性:训练数据集规模(130小时)和多样性描述不足(以中文歌曲为主),可能影响模型在所有类型音频上的泛化能力。侧信息的AI模型结构描述过于简略,未公开代码和详细数据集信息,限制了可复现性。
🥈 SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution
✅ 7.5/10 | 前25% | #音频增强 | #扩散模型 | #流匹配 #生成模型
👥 作者与机构
- 第一作者:Jaekwon Im(KAIST 文化技术研究生院)
- 通讯作者:未说明
- 作者列表:Jaekwon Im(KAIST 文化技术研究生院)、Juhan Nam(KAIST 文化技术研究生院)
💡 毒舌点评
这篇论文的亮点在于巧妙地将文本语义信息和频谱滚降这一物理特征结合,作为扩散模型的双重引导,有效解决了通用音频超分辨率中“对齐差”和“高频能量不稳定”这两大痛点。不过,论文在训练硬件、具体模型参数量等复现关键信息上完全缺失,对于想复现其成果的同行来说,这无异于只给了地图却没标比例尺,实用性打了折扣。
📌 核心摘要
- 问题:现有的通用音频超分辨率方法(如AudioSR、FlashSR)在重建高频时,常出现语义不匹配(如生成不自然的齿音)和高频能量分布不一致的问题。
- 方法核心:提出SAGA-SR模型,基于DiT(Diffusion Transformer)架构和流匹配(Flow Matching)目标进行训练。其核心创新在于引入了双重条件引导:(1)由音频生成的文本描述提供的语义嵌入;(2)由输入和目标音频的频谱滚降频率提供的声学嵌入。
- 新颖之处:首次在音频超分辨率任务中系统性地引入了基于文本的语义引导,解决了现有方法生成音频语义失真的问题;同时,引入了频谱滚降这一可量化的声学特征,为模型提供了明确的高频能量分布指导,并允许用户在推理时通过单一标量控制输出音频的高频能量。
- 主要结果:在语音、音乐、音效三个领域的测试中,SAGA-SR在所有客观指标(LSD、FD)和主观评估分数上均优于AudioSR和FlashSR。例如,在主观评估中,SAGA-SR在音效任务上得分3.88,显著高于FlashSR的3.34。消融实验证实了文本嵌入和频谱滚降嵌入的有效性。
- 实际意义:SAGA-SR提供了一个能够处理任意输入采样率(4-32 kHz)并统一上采样到44.1 kHz的通用音频增强工具,其可控的高频能量生成特性使其在音频修复、后期制作等场景中具有应用潜力。
- 主要局限性:模型对于包含多个重叠声源的复杂音频的处理能力有限;后处理中的低频替换操作可能引入频段间的不自然连接。
🥉 Subspace Hybrid Adaptive Filtering for Phonocardiogram Signal Denoising
✅ 7.0/10 | 前50% | #音频增强 | #信号处理 | #心音信号 #自适应滤波
👥 作者与机构
- 第一作者:Wageesha N. Manamperi (University of Moratuwa, Sri Lanka, Department of Electronic & Telecommunication Engineering)
- 通讯作者:论文中未明确标注通讯作者
- 作者列表:Wageesha N. Manamperi (University of Moratuwa, Sri Lanka, Department of Electronic & Telecommunication Engineering; Audio & Acoustic Signal Processing Group, Australian National University, Australia), Thushara D. Abhayapala (Audio & Acoustic Signal Processing Group, Australian National University, Australia)
💡 毒舌点评
亮点在于将经典的NLMS、GMM维纳滤波与多通道PCA子空间方法进行“混搭”,形成一个两阶段流水线,逻辑清晰且有实验验证,为传统信号处理方法在心音降噪领域的应用提供了新思路。短板是其核心创新(两阶段串联)更偏向于工程组合而非理论突破,且代码与训练细节完全未公开,对于希望复现或深入理解参数影响的读者极不友好,削弱了论文的实际影响力。
📌 核心摘要
- 问题:心血管疾病早期诊断依赖于心音(PCG)信号,但录制过程中存在的各种背景噪声严重影响诊断准确性。现有单通道降噪方法在低信噪比条件下性能不足或计算成本高。
- 方法核心:提出一种两阶段子空间混合自适应滤波方法。第一阶段,结合归一化最小均方(NLMS)滤波器和基于高斯混合模型的维纳滤波器(GMM WF)进行初步降噪;第二阶段,将第一阶段的两个输出视为双通道信号,通过主成分分析(PCA)子空间投影来进一步抑制残留噪声。
- 创新性:该方法是首次将GMM WF应用于心音降噪,并创新性地将NLMS和GMM WF的输出作为PCA的两个输入通道进行联合处理,利用信号子空间投影提升降噪效果。
- 实验结果:在PASCAL和PhysioNet两个公开数据集上,于多种真实噪声和低信噪比(-10 dB至10 dB)条件下进行评估。结果显示,所提方法(SS-Hybrid)在信噪比提升(ΔSNR)上显著优于小波阈值(WT)、去噪自编码器(DAE)和U-Net等基线方法。在PASCAL数据集上,SS-Hybrid的ΔSNR达到5.0289 dB,而次优的U-Net为-2.4449 dB;在PhysioNet数据集消融实验中,SS-Hybrid的信号失真比(SDR)达到15.27±4.41 dB,优于单独使用NLMS(11.83±4.13 dB)或GMM WF(12.80±6.44 dB)。
- 实际意义:该方法为单麦克风采集的心音信号提供了一种有效的降噪方案,有望提升基于PCG的心血管疾病诊断的准确性和可靠性,尤其在便携式或低成本医疗场景中具有应用潜力。
- 局限性:论文未说明训练和推理的具体计算复杂度;未在真实临床场景中进行大规模验证;未提供代码和模型,可复现性存疑;方法对噪声GMM模型的依赖性较强,其泛化能力有待进一步考察。