Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification
📄 Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification #音频分类 #零样本 #多模态模型 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #零样本 | #多模态模型 #基准测试 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Karim El Khoury† (ICTEAM, UCLouvain, Belgium), Maxime Zanella† (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine† (ICTEAM, UCLouvain, Belgium) (论文注明†表示贡献均等) 通讯作者:未说明 作者列表:Karim El Khoury (ICTEAM, UCLouvain, Belgium), Maxime Zanella (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine (ICTEAM, UCLouvain, Belgium), Christophe De Vleeschouwer (ICTEAM, UCLouvain, Belgium), Benoît Macq (ICTEAM, UCLouvain, Belgium) 💡 毒舌点评 本文提出的“熵最小化”加权策略,是一个将视觉领域思路巧妙迁移到音频-语言模型提示集成的优雅解决方案,其轻量级(可忽略的计算开销)和无需标注数据的特性使其具备即插即用的实用价值。然而,整篇论文的创新和验证都高度绑定在一个较为陈旧的模型(CLAP-2022)上,缺乏在新近、更强大的音频-语言模型(如Audio-MAE, Pengi)上的验证,这极大地限制了其贡献的通用性和时效性。 ...