Lightweight and Generalizable Acoustic Scene Representations Via Contrastive Fine-Tuning and Distillation
📄 Lightweight and Generalizable Acoustic Scene Representations Via Contrastive Fine-Tuning and Distillation #音频场景理解 #对比学习 #知识蒸馏 #少样本学习 #模型压缩 🔥 8.0/10 | 前25% | #音频场景理解 | #对比学习 | #知识蒸馏 #少样本学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kuang Yuan(卡内基梅隆大学,实习期间于Meta Reality Labs完成) 通讯作者:未说明 作者列表:Kuang Yuan(卡内基梅隆大学,Meta Reality Labs)、Yang Gao(Meta Reality Labs)、Xilin Li(Meta Reality Labs)、Xinhao Mei(Meta Reality Labs)、Syavosh Zadissa(Meta Reality Labs)、Tarun Pruthi(Meta Reality Labs)、Saeed Bagheri Sereshki(Meta Reality Labs) 💡 毒舌点评 亮点:精准地抓住了传统声学场景分类(ASC)模型“类别固定、无法迁移”的痛点,并将对比学习与表征蒸馏巧妙结合,从理论(结构化嵌入空间)到实验(开放集少样本适应)都给出了令人信服的解决方案。短板:论文自称为“轻量级”,但最轻的CP-Mobile学生模型也有6K参数,而用于对比的教师模型BEATs本身并非轻量级模型,这使得“轻量级”的对比语境稍显模糊;另外,实验仅在一个主要数据集(TAU22)上进行全量训练和蒸馏,开放集评估虽跨了两个数据集,但规模有限,泛化性的论证还可以更强。 ...