ICASSP 2026 - 音频检索 #音频分类

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Hashing-Baseline: Rethinking Hashing in the Age of Pretraine8.0分前25%

📋 论文详情

🥇 Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models

🔥 8.0/10 | 前25% | #音频检索 #音频分类 | #预训练 | #音频检索 #图像检索

👥 作者与机构

  • 第一作者:未说明(论文作者列表顺序为并列贡献)
  • 通讯作者:未说明
  • 作者列表:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France),Kawtar Zaher(INRIA, LIRMM, Université de Montpellier, France;Institut National de l’Audiovisuel, France),Lukas Rauch(University of Kassel, Germany),Alexis Joly(INRIA, LIRMM, Université de Montpellier, France)

💡 毒舌点评

亮点在于论文极其简洁地证明了“大力出奇迹”的道理:利用强大的预训练模型(如DINOv2、CLAP)的冻结嵌入,搭配几个无需训练的经典降维与二值化“零件”(PCA、随机正交投影),就能在图像和音频检索任务上达到与昂贵训练的深度哈希方法相竞争的性能,这为实际应用提供了一个极其简单且强大的基线。短板在于方法本身的创新性有限,本质上是现有技术的拼接,且虽然提出了音频哈希基准,但在更大规模、更贴近真实场景的跨域检索任务上的验证仍然不足。

📌 核心摘要

  1. 问题:现有的深度哈希方法(无论是监督还是无监督)通常需要针对特定任务、数据集和码长进行昂贵且耗时的从头训练,缺乏灵活性和通用性。同时,预训练基础模型已经能产生强大的语义嵌入。
  2. 方法:提出Hashing-Baseline,一种无需训练的哈希方法。其核心流程是:利用冻结的预训练模型(如ViT、音频编码器)提取嵌入,然后依次进行PCA降维、随机正交投影、Sigmoid激活后阈值二值化。检索时采用非对称汉明距离。
  3. 新意:与传统哈希直接处理原始特征或深度哈希需要训练不同,本文首次系统性地论证并展示了将预训练模型的强大表示能力与经典、无需训练的哈希技术相结合,能够产生一个简单、高效且跨模态(图像/音频)通用的强基线。
  4. 结果:在多个图像检索基准(CIFAR-10, Flickr25K等)和一个新的音频检索基准(GTZAN, ESC-50等)上,该方法仅使用16-64位二进制码,性能就能接近甚至达到当前无监督哈希的SOTA水平(见下表)。
    • 图像检索关键结果(mAP@K):
      模型特征CIFAR10 (Orig/16/32/64)FLICKR25K (Orig/16/32/64)COCO (Orig/16/32/64)NUS-WIDE (Orig/16/32/64)
      DFNOrig/Float/Binary93.3/94.6/94.4/94.280.7/83.7/83.9/83.685.3/77.1/82.3/85.383.2/81.9/83.1/83.2
      DINOv2Orig/Float/Binary95.4/95.9/96.0/95.976.3/77.8/78.2/77.788.3/81.2/86.5/88.879.8/76.4/78.0/78.7
      SimDINOv2Orig/Float/Binary89.6/90.8/91.1/91.181.1/81.6/81.6/81.487.4/82.7/86.0/87.384.3/83.2/83.7/83.6
      SOTA (Binary)87.6/91.2/92.681.8/83.8/84.976.0/78.9/81.681.2/83.2/84.4
    • 音频检索关键结果(mAP):
      模型特征GTZAN (Orig/16/32/64)ESC50 (Orig/16/32/64)VocalSound (Orig/16/32/64)CREMA-D (Orig/16/32/64)
      CLAPOrig/Float/Binary41.2/41.2/38.2/37.488.1/81.4/87.3/87.762.7/59.3/57.0/55.725.1/25.1/25.0/24.9
      CEDOrig/Float/Binary51.5/53.7/50.0/48.382.7/50.0/72.8/83.260.2/58.7/58.5/58.519.3/20.6/20.6/20.7
  5. 意义:为实际部署提供了一个极其简单、无需训练、高性能的哈希检索方案,降低了使用门槛,并揭示了预训练模型特征中存在高度冗余。
  6. 局限:方法的性能高度依赖于预训练模型嵌入的质量;提出的音频基准数据集规模相对较小;未在超大规模数据库上进行验证;与专门训练的深度哈希方法在特定任务上可能存在差距。