Salad-VAE: Semantic Audio Compression with Language-Audio Distillation
📄 Salad-VAE: Semantic Audio Compression with Language-Audio Distillation #音频压缩 #对比学习 #知识蒸馏 #变分自编码器 #零样本 ✅ 7.5/10 | 前25% | #音频压缩 | #变分自编码器 | #对比学习 #知识蒸馏 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sebastian Braun (Microsoft Research, Redmond, WA, USA) 通讯作者:未说明 作者列表:Sebastian Braun (Microsoft Research, Redmond, WA, USA), Hannes Gamper (Microsoft Research, Redmond, WA, USA), Dimitra Emmanouilidou (Microsoft Research, Redmond, WA, USA) 💡 毒舌点评 亮点在于通过极低的潜在帧率(7.8 Hz)和精简的架构,在压缩效率上取得了显著进步,并创新性地集成了零样本分类和描述生成能力,超越了传统VAE的范畴。短板是其在核心的音频重构质量指标(如DistillMOS, FAD)上仍落后于StableAudio等更复杂的基线,表明其“语义增强”和“高保真重构”的双重目标尚未完美统一,且通用性验证局限于所选数据集。 ...