ICASSP 2026 - 音频压缩
共 2 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | Salad-VAE: Semantic Audio Compression with Language-Audio Di | 7.5分 | 前25% |
| 🥈 | Respire-Mamba C-UNet: Consistency-Trained Autoencoder for Hi | 7.0分 | 前25% |
📋 论文详情
🥇 Salad-VAE: Semantic Audio Compression with Language-Audio Distillation
✅ 7.5/10 | 前25% | #音频压缩 | #变分自编码器 | #对比学习 #知识蒸馏
👥 作者与机构
- 第一作者:Sebastian Braun (Microsoft Research, Redmond, WA, USA)
- 通讯作者:未说明
- 作者列表:Sebastian Braun (Microsoft Research, Redmond, WA, USA), Hannes Gamper (Microsoft Research, Redmond, WA, USA), Dimitra Emmanouilidou (Microsoft Research, Redmond, WA, USA)
💡 毒舌点评
亮点在于通过极低的潜在帧率(7.8 Hz)和精简的架构,在压缩效率上取得了显著进步,并创新性地集成了零样本分类和描述生成能力,超越了传统VAE的范畴。短板是其在核心的音频重构质量指标(如DistillMOS, FAD)上仍落后于StableAudio等更复杂的基线,表明其“语义增强”和“高保真重构”的双重目标尚未完美统一,且通用性验证局限于所选数据集。
📌 核心摘要
本文针对生成式和多模态模型对音频紧凑语义表征的需求,提出了SALAD-VAE,一种连续、高紧凑度的音频变分自编码器。该模型在频域操作,通过创新的训练方案(包括多源混合增强、去噪自编码原理、对比学习和CLAP蒸馏损失),旨在同时提升压缩效率、语义丰富度和泛化能力。与StableAudio VAE、Music2Latent等基线相比,SALAD-VAE的参数量显著减少(小模型仅6.8M参数),潜在帧率极低(7.8Hz),在多个分类基准(如场景分类、事件检测、音乐类型)的潜在空间探测中持续优于基线,其大模型配置(VAE-large D=128)在重建质量上接近基线(例如DistillMOS达到3.35,WER为0.08%)。核心创新是证明了通过多任务学习可以显著提升音频VAE潜在空间的语义密度,并赋予了其零样本分类和音频描述生成这一新能力。主要局限在于,为了兼顾语义和压缩效率,其绝对的音频保真度指标(如FAD为471)仍逊色于更复杂、计算成本更高的专用生成模型,且其有效性基于特定的数据增强和损失函数假设。
实验结果关键数据表1(消融实验):
| 损失函数配置 | DistillMOS | WER (%) | FAD | 场景(mAP) | 事件(mAP) | 情感(mAP) | 音乐(mAP) | 乐器(mAP) |
|---|---|---|---|---|---|---|---|---|
| recon+KLD | 1.26 | 0.93 | 1191 | 0.29 | 0.06 | 0.29 | 0.42 | 0.25 |
| recon+KLD+contrastive | 1.16 | 1.08 | 1320 | 0.31 | 0.07 | 0.31 | 0.46 | 0.27 |
| recon+KLD+CLAP | 1.22 | 0.85 | 1229 | 0.51 | 0.27 | 0.38 | 0.78 | 0.39 |
| recon+KLD+CLAP+contr | 1.18 | 1.06 | 1467 | 0.52 | 0.23 | 0.38 | 0.72 | 0.41 |
| recon+KLD+mbGAN | 2.76 | 0.17 | 582 | 0.33 | 0.08 | 0.29 | 0.55 | 0.26 |
| recon+KLD+CLAP+contr+mbGAN | 2.55 | 0.23 | 480 | 0.46 | 0.22 | 0.34 | 0.79 | 0.33 |
实验结果关键数据表2(与基线对比):
| 模型 | DistillMOS | WER (%) | FAD | 场景(mAP) | 事件(mAP) | 情感(mAP) | 音乐(mAP) | 乐器(mAP) | 描述(Clotho) | 描述(AudioCaps) | 参数量(M) | 帧率(Hz) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| StableAudio Open VAE | 3.60 | 0.03 | 199 | 0.30 | 0.09 | 0.33 | 0.49 | 0.34 | N/A | N/A | 156.1 | 21.0 |
| Music2Latent (v1) | 4.01 | 0.03 | 238 | 0.30 | 0.08 | 0.32 | 0.48 | 0.27 | N/A | N/A | 52.9 | 10.0 |
| VAE-large D=128 (本文全损失) | 3.35 | 0.08 | 471 | 0.49 | 0.27 | 0.37 | 0.82 | 0.41 | 0.09 | 0.14 | 53.6 | 7.8 |
🥈 Respire-Mamba C-UNet: Consistency-Trained Autoencoder for High-Fidelity Respiratory Sound Compression
✅ 7.0/10 | 前25% | #音频压缩 | #一致性训练 | #状态空间模型 #远程医疗
👥 作者与机构
- 第一作者:Rishabh(德里大学计算机科学系)
- 通讯作者:未说明
- 作者列表:Rishabh(德里大学计算机科学系)、Yogendra Meena(德里理工大学应用数学系)、Dhirendra Kumar(贾瓦哈拉尔·尼赫鲁大学计算机与系统科学学院)、Kuldeep Singh(德里大学计算机科学系)、Nidhi(J.C. Bose科学技术大学 YMCA)
💡 毒舌点评
论文成功地将多个前沿技术(SincConv、U-Net金字塔、Mamba、一致性模型)缝合在一起,在呼吸音压缩任务上取得了令人印象深刻的保真度(CC=1.0000),这是其显著亮点。然而,其核心短板在于压缩比(CR=3.91)相对温和,且论文主要贡献更偏向于“工程整合”而非“理论突破”,此外,关键的消融实验(如表1)中“去掉方差缩放/频率门控”性能反而略好于完整模型,这略显反常,论文未给出充分解释。
📌 核心摘要
- 要解决的问题:慢性呼吸疾病诊断中,数字听诊器录音的高效压缩与高保真重建,以支持可扩展的远程医疗。
- 方法核心:提出Respire-Mamba C-UNet,一个统一的自编码器框架。它结合生理感知的SincConv前端进行特征提取,金字塔UNet进行多尺度编码,以及一个由时间Mamba瓶颈增强的一致性训练UNet进行单步解码重建。
- 与已有方法相比新在哪里:不同于先前工作孤立处理前端、编码、解码,或追求极端压缩比,本文首次将SincConv的生理感知前端、金字塔多尺度表示、Mamba的高效长程建模与一致性训练的单步重建能力整合,共同优化以获得临床级保真度。
- 主要实验结果:在SPRSound 2024基准测试上,模型实现了PRD=0.85%, CC=1.0000, CR=3.91,显著优于现有自编码器和压缩感知基线。消融研究证实了各组件的互补增益。关键对比如下表所示:
方法 PRD (%) CC CR 压缩感知 [10] 50.1 0.8630 3.5 VAE+Transformer [11] 20.5 0.9800 256 卷积自编码器 [9] 22.3 0.9720 222.1 生成式VAE [9] 7.60 0.9757 42.67 压缩感知 [9] 5.30 0.9311 4 本文方法 0.85 1.0000 3.91 - 实际意义:为医疗远程听诊提供了一种高质量、低延迟(单次前向传播)的音频压缩解决方案,有助于推动远程呼吸诊断的普及。
- 主要局限性:压缩比相对较低,未在更广泛的音频或疾病类型数据集上验证;消融实验中个别结果的解读需要更多分析;未提供代码与模型以支持复现。