ICASSP 2026 - 音频检索

11 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇GLAP: General Contrastive Audio-Text Pretraining Across Doma8.5分前25%
🥈CASTELLA: Long Audio Dataset with Captions and Temporal Boun8.5分前25%
🥉WavLink: Compact Audio–Text Embeddings with a Global Whisper8.0分前25%
4.SLAP: Scalable Language-Audio Pretraining with Variable-Dura8.0分前25%
5.AUDIOCARDS: Structured Metadata Improves Audio Language Mode7.5分前50%
6.Automatic Music Sample Identification with Multi-Track Contr7.5分前25%
7.Contrastive Timbre Representations for Musical Instrument An7.5分前25%
8.BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Sp7.5分前25%
9.EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and7.5分前25%
10.Scalable Evaluation for Audio Identification Via Synthetic L7.0分前25%
11.Do Speech LLMs Learn Crossmodal Embedding Spaces?6.5分前50%

📋 论文详情

🥇 GLAP: General Contrastive Audio-Text Pretraining Across Domains and Languages

🔥 8.5/10 | 前25% | #音频检索 | #对比学习 #预训练 | #对比学习 #预训练

👥 作者与机构

  • 第一作者:Heinrich Dinkel (MiLM Plus, Xiaomi Inc., China)
  • 通讯作者:未说明
  • 作者列表:Heinrich Dinkel (MiLM Plus, Xiaomi Inc., China)、Zhiyong Yan (MiLM Plus, Xiaomi Inc., China)、Tianzi Wang (MiLM Plus, Xiaomi Inc., China)、Yongqing Wang (MiLM Plus, Xiaomi Inc., China)、Xingwei Sun (MiLM Plus, Xiaomi Inc., China)、Yadong Niu (MiLM Plus, Xiaomi Inc., China)、Jizhong Liu (MiLM Plus, Xiaomi Inc., China)、Gang Li (MiLM Plus, Xiaomi Inc., China)、Junbo Zhang (MiLM Plus, Xiaomi Inc., China)、Jian Luan (MiLM Plus, Xiaomi Inc., China)

💡 毒舌点评

亮点:GLAP真正实现了将语音内容理解无缝整合进音频-文本对齐框架,并在多语言语音任务上取得了远超前辈模型(如L-CLAP, MSCLAP)的惊人效果,证明了“一个模型通吃所有音频类型”的可行性。短板:其语音理解能力的显著提升,很大程度上归功于选择了对语音建模能力强的Dasheng作为音频编码器,这更像是一个工程上的“正确组合”,而非方法论上的根本性突破,且其性能在非英语语言的零样本声音分类上仍有明显衰减。

📌 核心摘要

  1. 问题:现有的对比语言-音频预训练(CLAP)模型主要针对英文的声音和音乐事件,在处理语音(spoken language)内容和多语言任务上表现不佳,无法满足通用音频理解的需求。
  2. 方法核心:提出GLAP(General Language Audio Pretraining) 框架。核心是在对比学习框架下,使用一个通用音频编码器(Dasheng) 来提取音频特征,并与强大的多语言文本编码器(Sonar) 的文本特征进行对齐。训练时,除了英文声音/音乐数据,还加入了大规模多语言语音数据(YODAS)以及通过机器翻译得到的多语言声音/音乐描述。
  3. 与已有方法相比新在哪里:a) 统一性:首次在一个单一框架中,平衡了声音事件、音乐和语音内容的理解能力,不牺牲原有声音/音乐任务的性能。b) 多语言:系统性地将多语言能力扩展至音频-文本对齐模型,在50种语言的关键词识别等任务上展现出前所未有的效果。c) 训练目标:采用更适合大批次的sigmoid loss替代标准的交叉熵损失,在检索任务上获得1%-5%的性能提升。
  4. 主要实验结果:
    • 检索:在音乐/语音检索基准(LibriSpeech, AISHELL-2, MusicCaps)上大幅超越现有方法,例如在LibriSpeech Test-other上文本到音频检索R@1达到93.8%(对比最强基线L-CLAP的0.1%)。在标准声音事件检索基准(AudioCaps, Clotho)上达到或超越SOTA水平,如在AudioCaps上文本到音频R@1达到41.7%。
    • 零样本分类:在Speech Commands V1/V2(SCV1/2)等语音指令数据集上,准确率高达96.6%和95.8%,远超所有基线。在声音和音乐分类任务(ESC-50, GTZAN等)上保持竞争力。
    • 多语言:在包含50种语言的MSW数据集上进行零样本关键词识别,平均准确率显著,并在如奥里亚语、瓜拉尼语等低资源语言上取得较好效果。多语言声音/音乐分类(表7)显示,虽然性能较英语有所下降,但模型仍有效。
    • 关键结果见表2(检索)、表5(零样本分类)和图3(多语言)。
  5. 实际意义:GLAP为构建能够理解完整音频内容(包括声音、音乐和语音) 的通用音频基础模型提供了可行方案,尤其在多语言和跨领域检索、零样本分类方面具有重要应用价值,推动了音频智能从“事件检测”向“内容理解”的演进。
  6. 主要局限性:a) 模型对语音内容的强大理解能力,部分依赖于选择特定的预训练音频编码器(Dasheng),其架构细节非本文重点。b) 多语言声音/音乐分类性能较英语有明显下降(表7),表明跨语言泛化仍有提升空间。c) 训练数据YODAS包含大量自动转录的噪声数据,可能影响上限。

🥈 CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

🔥 8.5/10 | 前25% | #音频检索 | #迁移学习 | #多模态模型 #预训练

👥 作者与机构

  • 第一作者:Hokuto Munakata(LY Corporation)
  • 通讯作者:未说明(论文中通讯作者符号*对应作者列表第二位Takehiro Imamura,但未明确其通讯作者身份)
  • 作者列表:Hokuto Munakata(LY Corporation)、Takehiro Imamura(名古屋大学)、Taichi Nishimura(LY Corporation)、Tatsuya Komatsu(LY Corporation)

💡 毒舌点评

本文最大的贡献是为音频时刻检索任务“修桥铺路”,用一个规模空前(相比前作大24倍)且质量可控的真实世界数据集,终结了该任务依赖合成数据或极小测试集的尴尬历史,让后续研究得以立足于可靠地基之上。然而,它也清晰地揭示了一个残酷现实:即便有了优质数据,当前模型在检索短时刻(<10秒)时依然表现糟糕,这恐怕是未来比数据规模更难啃的骨头。

📌 核心摘要

  1. 要解决什么问题:音频时刻检索(AMR)任务长期缺乏大规模、真实世界的人工标注基准数据集,导致现有模型性能评估不可靠,且训练严重依赖合成数据。
  2. 方法核心是什么:构建了CASTELLA数据集。它包含1862个1-5分钟的YouTube音频,每个音频配有全局摘要描述、多个局部关键事件描述及其精确的起止时间边界。同时,基于该数据集,采用预训练音频-文本模型(CLAP)结合检测Transformer(DETR)架构建立了基线模型。
  3. 与已有方法相比新在哪里:CASTELLA是首个满足AMR任务三大核心需求(长音频、自由格式描述、时间边界)的大规模真实世界数据集。其标注规模(约1.9k音频)是此前人工标注数据集(UnAV-100子集)的24倍以上。此外,论文首次系统验证了“在合成数据上预训练,再在真实数据集上微调”的两阶段训练策略的有效性。
  4. 主要实验结果如何:实验证明,使用CASTELLA进行微调能显著提升性能。仅在合成数据集(Clotho-Moment)上训练的模型Recall1@0.7为5.8;仅在CASTELLA上训练为9.7;而在合成数据预训练后于CASTELLA微调的模型达到16.2,提升10.4点。不同架构对比中,UVCOM模型表现最优(Recall1@0.7: 20.3)。实验还发现,模型对短时刻(<10秒)的检索能力明显较弱(见图3)。
索引DETR网络训练数据R1@0.5R1@0.7mAP@0.5mAP@0.75mAP@avg.
1QD-DETRClotho-Moment10.35.89.94.75.3
2-CASTELLA19.89.717.65.97.7
3-两者30.616.226.512.213.7
4Moment-DETR两者19.310.817.27.08.2
5UVCOM两者31.720.328.415.215.9
  1. 实际意义是什么:为音频理解领域,特别是音频时刻检索任务,提供了一个可靠的评估基准和训练资源,推动了该任务从合成数据走向真实应用。
  2. 主要局限性:1)数据集规模虽相对前作巨大,但对于深度学习而言仍属中等;2)音频均来自YouTube,可能存在领域偏差;3)短时刻检索仍是巨大挑战;4)论文未探索更先进的音频表示学习模型或更复杂的检索架构。

🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #零样本 #预训练

👥 作者与机构

  • 第一作者:Gokul Karthik Kumar (Technology Innovation Institute, Abu Dhabi, UAE)
  • 通讯作者:未说明
  • 作者列表:Gokul Karthik Kumar (Technology Innovation Institute, Abu Dhabi, UAE)、Ludovick Lepauloux (Technology Innovation Institute, Abu Dhabi, UAE)、Hakim Hacid (Technology Innovation Institute, Abu Dhabi, UAE)

💡 毒舌点评

这篇论文巧妙地将用于语音识别的Whisper模型“降维”用于音频文本嵌入,用一个全局token替代了1500个帧特征,在检索任务上取得了优于CLAP系列模型的效果,思路清晰且实用。然而,其在零样本分类(如ESC-50)上的性能落后于专用模型,表明为ASR预训练的特征在通用音频理解上仍有局限;同时,论文对“为何选择现代BERT并表现不佳”的讨论不够深入。

📌 核心摘要

  1. 要解决的问题:当前大型音频语言模型普遍使用Whisper作为音频编码器(产生大量帧级特征),而音频文本嵌入模型(如CLAP)却主要使用HTSAT/PaST等专用编码器,两者存在方法论上的割裂。同时,如何获得紧凑高效的音频表示以降低存储和检索成本是一个关键挑战。

  2. 方法核心:提出WavLink模型,在预训练的Whisper编码器末尾添加一个可学习的全局token(而非使用全部帧特征),通过对比学习与文本编码器联合训练,将一段30秒音频映射为单个紧凑的嵌入向量。

  3. 新在哪里:首次将Whisper有效用于紧凑的音频文本嵌入任务;引入全局token作为内容自适应聚合器;系统性地探索了文本编码器、损失函数、微调策略等24种设计组合;采用两阶段训练和Matryoshka监督来提升性能与可扩展性。

  4. 主要实验结果:

    • 检索任务:在AudioCaps和Clotho数据集上,WavLink-Large(761M参数)在Recall@1等指标上全面超越了LAION-CLAP、MGA-CLAP等基线。WavLink-Base(84M参数)性能也具竞争力。
    • 零样本分类:在VGGSound上达到31.8%准确率(WavLink-Small),为最佳。但在ESC-50和US8K上落后于专用模型。
    • 多选题问答(AIR-Bench):WavLink-Base(84M参数,1个token)平均准确率为42.0%,显著优于LAION-CLAP(35.8%),并接近参数量大43倍的Falcon3-Audio-3B(42.0%),仅落后Qwen2-Audio Instruct(44.0%)2个百分点。
    • 可扩展性:通过Matryoshka监督,将嵌入维度压缩至1/8时,性能平均下降小于1个点。

    关键数据表(摘自论文):

    表2:检索性能(Recall@K)

    模型AudioCaps (T2A R@1)AudioCaps (A2T R@1)Clotho (T2A R@1)Clotho (A2T R@1)
    WavLink-Large46.760.022.427.4
    WavLink-Small44.554.321.225.3
    WavLink-Base39.750.517.621.1
    LAION-CLAP36.146.816.122.7
    MGA-CLAP41.854.420.425.3

    表4:多选题问答性能(Accuracy %)

    模型参数量(M)音频Token数总平均声音平均音乐平均语音平均
    WavLink-Base84142.048.347.934.4
    LAION-CLAP193135.842.646.224.7
    Qwen2-Audio Instruct840075044.049.846.143.5
    Falcon3-Audio 3B360075042.053.442.235.1
  5. 实际意义:证明了Whisper的ASR预训练特征经过适配后,可以高效地用于通用音频文本嵌入任务,实现了一个模型兼顾存储/检索效率(单token)和强大的跨模态理解能力(在AIR-Bench上与大型音频-LLM性能接近)。

  6. 主要局限性:在强调细粒度分类和描述的任务(如ESC-50, US8K)上,性能不及专门为这些任务设计的CLAP模型;在需要精确时序对齐的任务(如音频定位)上,单token表示可能不如帧级特征的模型;论文未提供代码和预训练权重,限制了立即复现的可能。


4. SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training

🔥 8.0/10 | 前25% | #音频检索 | #预训练 | #音频分类 #多模态模型

👥 作者与机构

  • 第一作者:Xinhao Mei(Meta)
  • 通讯作者:未说明
  • 作者列表:Xinhao Mei(Meta)、Gael Le Lan(Meta)、Haohe Liu(Meta)、Zhaoheng Ni(Meta)、Varun Nagaraja(Meta)、Yang Liu(Meta)、Yangyang Shi(Meta)、Vikas Chandra(Meta)

💡 毒舌点评

SLAP在CLAP的“变长音频处理”和“单阶段多目标训练”两个痛点上给出了工程与学术结合得相当漂亮的方案,尤其序列打包技巧很实用。但宣称的“109M数据”优势建立在未公开的私有数据集上,这削弱了其结论的可复现性和说服力,让后续研究者难以直接验证或跟进其“规模至上”的逻辑。

📌 核心摘要

  1. 要解决什么问题:当前对比语言-音频预训练(CLAP)模型存在三大局限:训练数据规模相对较小(通常百万级)、音频输入时长固定(通常≤10秒)且需要填充/截断、以及全局对比学习损失阻碍了密集细粒度音频特征的学习。
  2. 方法核心是什么:提出SLAP框架,通过三点解决上述问题:(1) 将预训练规模扩展至1.09亿音频-文本对;(2) 重新设计Transformer音频编码器,支持最长30秒的变长音频输入,并采用混合注意力机制与序列打包技术高效处理;(3) 统一对比损失、自监督掩码建模损失和字幕生成损失到单阶段训练中。
  3. 与已有方法相比新在哪里:相比先前工作,SLAP首次将音频-文本预训练推向亿级数据规模;其音频编码器从头训练,原生支持变长输入,避免了填充/截断;其统一的单阶段多目标训练管道简化了流程(不同于多阶段方法),旨在同时学习全局对齐和局部密集特征。
  4. 主要实验结果如何:
    • 音频文本检索(Table 1):在AudioCaps和Clotho数据集上,无论是零样本还是微调设置,SLAP均达到了SOTA性能。例如,在微调后,AudioCaps文本到音频检索的R@1达到47.5%,Clotho的音频到文本检索R@1达到36.8%。
    • 零样本音频分类(Table 2):在ESC-50、CREMA-D和GTZAN数据集上,通过在WavCaps上微调后,SLAP取得了新的SOTA(如ESC-50上达到95.5%)。
    • 音频字幕(Table 3):在AudioCaps和Clotho上,SLAP的CIDEr分数(75.1和43.7)优于M2D2-CLAP等采用多阶段训练的CLAP方法。
    • 消融研究(Table 5):在AudioCaps零样本检索上,去除自监督损失(L_SSL)或字幕损失(L_CAP)均导致性能下降,证明了多目标训练的有效性;去除局部注意力也带来性能损失。
  5. 实际意义是什么:证明了大规模、灵活(变长)、多目标预训练对学习强大通用音频表示的重要性。SLAP模型可作为强大的音频基础模型,服务于音频检索、分类、字幕等多种下游任务。
  6. 主要局限性是什么:预训练使用的MovieGen Audio数据集未公开,这限制了方法的完全复现和对数据规模效应的独立验证;尽管支持变长音频,但报告的测试集音频长度仍在30秒内,更长时序的处理能力未验证;在音频标注(AudioSet)等任务上,并未显著超越最强的专用模型。

5. AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design

7.5/10 | 前50% | #音频检索 | #对比学习 | #音频分类 #数据集

👥 作者与机构

  • 第一作者:Sripathi Sridhar(新泽西理工学院,Adobe Research)
  • 通讯作者:未说明
  • 作者列表:Sripathi Sridhar(新泽西理工学院,Adobe Research)、Prem Seetharaman(Adobe Research)、Oriol Nieto(Adobe Research)、Mark Cartwright(新泽西理工学院)、Justin Salamon(Adobe Research)

💡 毒舌点评

论文核心亮点是精准定位声音设计师的实际工作流,将通用大语言模型的知识“蒸馏”成针对性极强的结构化音频描述(AUDIOCARDS),而非追求通用的音频理解。短板在于其创新主要是任务适配与工程化整合,在模型架构和核心算法上缺乏根本性突破,且严重依赖一个未公开的、可能包含专有数据的大型内部数据集。

📌 核心摘要

  1. 解决的问题:专业音效库的元数据(如声音类别、声学属性、使用场景)通常缺失或不完整,而现有音频描述模型生成的单句描述无法满足声音设计师的精确检索需求。
  2. 方法核心:提出“音频卡”(AUDIOCARDS),一种结构化的多字段音频元数据。利用大语言模型(LLM)的世界知识,以音频的声学描述符(响度、音高等)和少量元数据为输入,通过少样本提示生成包含名词、动词、UCS分类、视觉上下文、描述性标题等字段的JSON格式输出。
  3. 与已有方法的新颖之处:不同于训练通用的单句音频描述模型,AUDIOCARDS首先设计了一种面向特定领域(声音设计)的、细粒度的结构化描述格式。随后,将音频描述和检索任务重新定义为基于这种结构化表示的生成和对比学习任务,使模型训练与下游应用更匹配。
  4. 主要实验结果:在自行构建的专业音效评估集(ASFx eval)和通用数据集(Clotho)上进行了实验。关键结果包括:
    • 结构化元数据生成:在生成音频卡字段任务上,所训练的Whisper-Cards模型全面优于作为基线的Audio Flamingo 3(AF3)模型。
    • 描述生成:在ASFx eval上,Whisper-Cards生成的描述在SPIDEr和FENSE指标上显著优于基线模型和AF3等大型音频语言模型(如SPIDEr为19.36 vs. 9.61)。
    • 检索:Cards-CLAP模型在零样本检索任务上,在内部专业数据集(ID)和Clotho上的R@10均优于仅使用描述性标题训练的Captions-CLAP模型(如ID上为75.40 vs. 73.45)。

表 1. 音频描述生成评估结果

模型Clotho数据集 (SPIDEr / FENSE)ASFx eval数据集 (SPIDEr / FENSE)
Whisper-Baseline21.05 / 47.617.98 / 49.78
Whisper-Cards (仅描述标题)22.18 / 48.4819.36 / 53.40
Whisper-Cards (完整卡)22.07 / 48.6718.61 / 51.78
Audio Flamingo 3 (思考模式)13.22 / 50.199.61 / 42.61

表 2. 零样本文本-音频检索结果

模型训练数据评估数据集R@10CatP@10
Captions-CLAP基线描述ID73.4577.66
Cards-CLAP音频卡字段ID75.4078.73
LAION-CLAP-ID24.8547.10
Captions-CLAP基线描述Clotho50.1235.00
Cards-CLAP音频卡字段Clotho52.4435.26
LAION-CLAP-Clotho55.40-
  1. 实际意义:为声音设计等垂直领域的音频信息检索提供了有效的工程化方案,通过发布评估数据集(ASFx eval)和提出音频卡生成任务,促进了领域特定的音频语言建模研究。
  2. 主要局限性:1)核心的音频卡生成依赖于一个未公开的大型混合数据集,其构成和规模可能影响结果的复现性。2)方法在通用音频描述任务(如Clotho)上优势不明显,表明其领域特异性较强,泛化性未知。3)评估仅限于有限的音频检索和描述任务,未探索在声音设计全流程(如声音合成、剪辑)中的应用潜力。

6. Automatic Music Sample Identification with Multi-Track Contrastive Learning

7.5/10 | 前25% | #音频检索 | #对比学习 | #自监督学习 #数据增强

👥 作者与机构

  • 第一作者:Alain Riou (Sony AI)
  • 通讯作者:未说明
  • 作者列表:Alain Riou (Sony AI), Joan Serrà (Sony AI), Yuki Mitsufuji (Sony AI)

💡 毒舌点评

亮点在于用多轨数据“动态合成”正样本对的设计非常巧妙,比以往在单轨上做文章更贴近“采样后混音”的真实场景,且通过VQT域的增强操作在计算效率和效果之间取得了很好的平衡。短板是论文坦诚地指出了当前方法在理论上的一个根本局限(即单嵌入无法区分来自同一原曲的不同采样),但这恰恰暴露了对比学习在复杂关系建模上的天花板,后续工作若不能在此突破,则该领域的进步可能很快会触及瓶颈。

📌 核心摘要

  1. 问题:自动音乐采样识别(从新曲中检测并找到被采样的原曲)是一项重要但极具挑战的任务,面临训练数据匮乏、需抵抗复杂音频变换、以及在大库中高效检索等难题。
  2. 方法核心:提出一种基于自监督对比学习的框架。核心创新是利用多轨录音数据,在训练时动态创建“人工混合”正样本对(将不同轨道子集混合),模拟真实的采样混音过程。模型使用VQT(可变Q变换)时频表示作为输入,并采用ResNet-IBN编码器。
  3. 与已有方法相比新在哪里:(1) 数据创建范式革新:首次在采样识别任务中利用多轨数据创建混合正样本,而非仅从单轨中裁剪。(2) 对比损失设计:为匹配新的数据创建方式,设计了一种允许每个样本拥有两个正样本对的修改版对比损失。(3) 高效的频域增强:在VQT表示上进行随机裁剪和时间拉伸,以低成本实现对音高和时间偏移的鲁棒性。
  4. 主要实验结果:在标准的Sample100基准上,本方法取得了0.603的mAP,相较于之前最佳基线(0.442)提升了超过15%(绝对值),同时在HR@1、HR@10等指标上也大幅领先。消融实验证明了时间拉伸、音高偏移(VQT裁剪)等增强策略以及使用高质量ground-truth stems的必要性。实验结果关键表格如下:

表1:模型消融实验(在Sample100和SamplePairs数据集上)

模型Sample100 mAP (↑)Sample100 HR@1 (↑)SamplePairs mAP (↑)SamplePairs HR@1 (↑)
Ours (完整模型)0.603 ± .0980.587 ± .1110.450 ± .0950.430 ± .097
no time-stretch0.463 ± .1000.427 ± .1120.301 ± .0860.270 ± .087
no time-shift0.598 ± .1000.573 ± .1120.376 ± .0910.350 ± .093
no pitch-shift0.422 ± .1000.413 ± .0940.355 ± .0920.340 ± .093
Contrastive baseline0.551 ± .1010.533 ± .1130.409 ± .0920.380 ± .095

表2:与SOTA方法在Sample100上的性能对比

模型mAPHR@1HR@10
Cheston et al. [12]0.441†--
Bhattacharjee et al. [14]0.442†0.155†0.191†
Ours0.603 ± .0980.587 ± .1110.733 ± .100
Ours + Top-5 retrieval0.622 ± .0990.600 ± .1100.747 ± .098

表3:训练数据中Stem数量对性能的影响(Sample100数据集)

模型mAP (↑)HR@1 (↑)mNR (↓)medNR (↓)
Ours (原始多轨)0.603 ± .0980.587 ± .1110.074 ± .0360.003
6 stems0.557 ± .1020.560 ± .1120.085 ± .0360.003
4 stems0.527 ± .1010.520 ± .1130.083 ± .0380.008
Demucs (分离)0.466 ± .1030.453 ± .1130.130 ± .0490.026
  1. 实际意义:为音乐版权管理、采样溯源提供了一种高效且鲁棒的自动化工具。释放的代码、模型和新数据集将推动该领域的研究。
  2. 主要局限性:论文指出,当前基于单嵌入的对比学习框架在理论上无法处理“同一首原曲被不同曲目采样了不同乐器”的情况,这违背了度量学习的三角不等式,是一个根本性的概念限制。

7. Contrastive Timbre Representations for Musical Instrument And Synthesizer Retrieval

7.5/10 | 前25% | #音频检索 | #对比学习 | #预训练 #数据增强

👥 作者与机构

  • 第一作者:Gwendal Le Vaillant (Haute-École Bruxelles-Brabant, ISIB)
  • 通讯作者:Yannick Molle (University of Mons, ISIA Lab, Impulsia)
  • 作者列表:Gwendal Le Vaillant (Haute-École Bruxelles-Brabant, ISIB), Yannick Molle (University of Mons, ISIA Lab, Impulsia)

💡 毒舌点评

亮点:为虚拟乐器对比学习设计了“乐器自身生成正样本”的策略,巧妙规避了传统音频增强对音色本质的破坏;提出的单一模型同时处理单源和混合音源的检索框架,显著优于先分离再检索的复杂流水线。 短板:实验验证的混合场景局限于三种特定家族乐器的组合,对于更复杂、更真实的多乐器混合(如交响乐、摇滚乐队)缺乏探索;论文声称代码和模型将开源,但当前缺乏具体承诺,对于依赖该工作的后续研究是种障碍。

📌 核心摘要

  1. 问题:在数字音乐制作中,从包含多种乐器的音频混合中快速、准确地检索出特定乐器的音色是一个挑战。传统的文本描述不充分,而单独聆听大量音色库效率低下。
  2. 方法核心:提出一个基于对比学习的框架,训练一个统一的Audio Spectrogram Transformer (AST) 模型。该模型能为单个乐器声音和混合声音生成音色嵌入,通过比较嵌入的余弦相似度来检索数据库中的乐器。
  3. 创新点:1) 针对性的正负样本构建:不使用传统的声音增强,而是利用虚拟乐器(采样器和合成器)本身生成同一乐器的不同音符/演奏作为正样本对,不同乐器的声音作为负样本。2) 统一的单/混合检索模型:使用一个模型计算所有嵌入,无需先进行声源分离,避免了分离引入的误差。
  4. 主要实验结果:
    • 单音源检索:在包含3884个乐器的测试集上,对比学习方法(InfoNCE损失,Top-1: 80.4%)性能与基于分类预训练的SOTA(Top-1: 83.2%)具有竞争力。
    • 多音源(三乐器混合)检索:这是论文的核心贡献。所提的“全三元组损失”对比学习模型(N=48)取得了84.2%的Top-1准确率和96.4%的Top-5准确率,远超基线模型(Demucs+单编码器: 14.5% Top-1;多编码器模型: 17.32% Top-1)。
方法Top-1 准确率 (%)Top-5 准确率 (%)
Demucs [15, 22] + 单编码器14.525.8
多编码器 [1]17.3262.6
对比学习:三元组损失 (N=24)64.885.0
对比学习:全三元组损失 (N=24)81.795.7
对比学习:全三元组损失 (N=48)84.296.4
对比学习:InfoNCE损失 (N=48)75.094.2
  1. 实际意义:为音乐人提供了高效的音色检索工具,可以直接用混合音频片段作为查询,在个人音色库中找到最匹配的乐器,提升创作效率。生成的音色嵌入也可用于其他音乐理解任务。
  2. 主要局限性:实验主要限于从NSynth和Surge虚拟乐器生成的数据,且混合检索实验仅针对“打击乐+贝斯+合成器主音”这一特定场景,模型在更复杂、声部更多的真实音乐混合上的表现有待验证。


8. BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection

7.5/10 | 前25% | #音频检索 | #自监督学习 | #对比学习 #最优传输

👥 作者与机构

  • 第一作者:Anup Singh(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium)
  • 通讯作者:Vipul Arora(ESAT-PSI, KU Leuven, Belgium;标注有⋆表示equal advising)
  • 作者列表:Anup Singh(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium)、Vipul Arora(ESAT-PSI, KU Leuven, Belgium)、Kris Demuynck(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium)

💡 毒舌点评

亮点在于将最优传输(OT)优雅地用于解决语音分词码本坍缩这一老大难问题,使得大码本训练稳定且高效,且在抗噪抗混响的鲁棒性上做到了超越同类基线(包括大模型WavLM的分词)的扎实水平。短板是研究的问题域(查询式语音术语检索)略显小众,且其核心的“稳健性”提升高度依赖于特定的任务和评价指标(Jaccard相似度、MTWV),对于通用语音理解或生成任务的直接启示有限。

📌 核心摘要

  1. 解决的问题:针对查询式语音术语检索(QbE-STD)任务,现有离散分词方法在嘈杂和混响环境中鲁棒性差,且存在码本坍缩(即分词码本利用率不均衡)导致的效率低下问题。
  2. 方法核心:提出BEST-STD 2.0框架。其一,采用双向Mamba编码器,并通过引入噪声/混响增强的对比学习和鲁棒一致性损失,训练出抗噪且说话人无关的帧级连续表示。其二,在向量量化(VQ)阶段,引入基于最优传输(OT)的正则化,将码本学习重构为平衡聚类问题,强制码本均匀使用,防止坍缩。最终采用TF-IDF索引和渐进式检索策略加速搜索。
  3. 创新之处:与之前工作(如BEST-STD 1.0)相比,新在:a) 系统性地设计了针对噪声和混响的自监督训练策略;b) 首次将最优传输理论应用于语音分词的码本平衡,解决代码崩溃;c) 专门引入针对离散分词的鲁棒性损失。
  4. 主要实验结果:在LibriSpeech和TIMIT数据集上的评估显示,该方法在各种噪声(-5dB到20dB SNR)和混响条件下,分词的Jaccard相似度和检索MTWV均显著优于基线(包括HuBERT、WavLM、SpeechTokenizer及上一代BEST-STD)。例如,在噪声+混响(t60=0.7s) 的极端条件下,LibriSpeech OOV任务的MTWV在5dB SNR时,BEST-STD 2.0达到0.56,而BEST-STD 1.0仅为0.27,WavLM为0.14。其分词码本熵在码本大小1024-4096下均保持在0.96以上,而KMeans基线低于0.76。
  5. 实际意义:提供了一种更鲁棒、高效的语音分词方案,使原始语音能够像文本一样被快速索引和检索,对于构建大规模语音数据库的检索系统具有实用价值。
  6. 主要局限性:方法主要针对帧级分词和检索任务设计,其生成的离散标记对语音合成、对话等需要更高级语义或韵律信息的任务是否同样有效,未进行验证。训练和评估集中于英语数据集,跨语言通用性未明。


9. EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and Temporal Grounding

7.5/10 | 前25% | #音频检索 | #知识蒸馏 | #对比学习

👥 作者与机构

  • 第一作者:Zilin Wang(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室)
  • 通讯作者:Liyan Chen(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室)
  • 作者列表:Zilin Wang(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室), Zheng Huang(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室), Zibai Ou(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室), Yuchen Yang(厦门大学电影系), Liyan Chen(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室)

💡 毒舌点评

EchoRAG 的亮点在于其工程设计的巧妙,将稳定的全局检索(教师)与精确的细粒度对齐(学生)结合,形成了一个有效的“粗筛-精排”范式。然而,其“创新”更多体现在对现有技术(如ColBERT的后期交互、KL蒸馏)的组合与适配上,在理论深度上稍显不足;峰值平滑正则化虽有效,但其设计(熵+全变差)更像是一个启发式的“补丁”,缺乏更深入的理论分析。

📌 核心摘要

  1. 问题:现有的音频RAG方法通常将音频压缩为单一的全局嵌入(如CLS token),丢失了细粒度的帧级信息和时间线索,这限制了其在需要精确定位音频片段的任务中的性能。

  2. 方法核心:提出了EchoRAG,一个两阶段框架。第一阶段,使用预训练CLAP模型的CLS编码器作为教师,进行快速的全局句级检索。第二阶段,引入一个基于token-frame后期交互(LI)的学生模块,从教师分布进行知识蒸馏,对检索结果进行细粒度重排序并预测支持性音频片段的时间跨度。此外,设计了一个无监督的峰值-平滑正则化,以改善时间定位分布的质量。

  3. 新意:与已有方法相比,EchoRAG的新意在于:a) 架构上结合了全局检索的高效性和细粒度交互的精确性;b) 训练上采用了针对多查询-单音频场景的Multi-positive InfoNCE损失来缓解假阴性问题;c) 提出了无需帧级标注的peak-smooth正则化来优化时间定位。

  4. 主要实验结果:EchoRAG在音频-文本检索任务(SQuAD-Spoken, AudioCaps)上取得了具有竞争力的性能,R@10和NDCG@10常高于基线。在生成任务(HotpotQA, SLUE-SQA-5)上,EchoRAG在FactScore(忠实度)指标上显著优于基线,表明其检索到的证据更具支持性。具体关键数据见下表:

    表1:音频-文本检索结果(摘选)

    方法数据集R@1R@5R@10NDCG@10
    WavRAGSQuAD-Spoken0.64240.80410.89790.8483
    OursSQuAD-Spoken0.65350.80370.92600.8341
    CLAPAudioCaps0.62530.93751.00000.8211
    OursAudioCaps0.65810.94751.00000.8459

    表3:生成结果(摘选)

    方法设置HotpotQA EMHotpotQA FSSLUE-SQA-5 EM
    TextRAGtop-10.33500.34260.5162
    WavRAGtop-10.31380.32470.5610
    EchoRAGtop-10.34080.34260.5687
    EchoRAGOracle0.63010.65370.6449
  5. 实际意义:该框架为基于音频的知识密集型问答和检索提供了一个更精确的解决方案,尤其是在需要定位具体说话片段或声音事件的场景(如法庭取证、会议纪要、媒体检索)中具有应用潜力。

  6. 主要局限性:a) 框架的性能部分依赖于CLAP教师模型的质量,且教师模型的微调引入了额外的训练开销。b) 峰值-平滑正则化虽然有效,但属于无监督启发式方法,其超参数(如α)可能需要针对不同任务调整。c) 实验中并未评估对更长音频(如数分钟)或更复杂查询的处理能力。


10. Scalable Evaluation for Audio Identification Via Synthetic Latent Fingerprint Generation

7.0/10 | 前25% | #音频检索 | #流匹配 | #扩散模型 #数据集

👥 作者与机构

  • 第一作者:Aditya Bhattacharjee(Queen Mary University of London, School of Electronic Engineering and Computer Science)
  • 通讯作者:未说明
  • 作者列表:Aditya Bhattacharjee(Queen Mary University of London)、Marco Pasini(Queen Mary University of London)、Emmanouil Benetos(Queen Mary University of London)

💡 毒舌点评

亮点: 这篇论文巧妙地将生成模型用于“元评估”,即评估评估工具本身,为缺乏大规模公共音乐数据的领域提供了一个优雅且高效的基准测试框架。短板: 该方法本质上是“以假乱真”,其有效性完全依赖于对特定预训练指纹模型分布的拟合,论文并未严格证明其生成的指纹能迁移到完全不同的指纹系统或模拟复杂的“真实世界”干扰分布(如流行度偏差、元数据噪声等)。

📌 核心摘要

  1. 要解决的问题:音频指纹识别系统的真实大规模评估受限于大型公共音乐数据库的稀缺性(因版权、存储等限制)。
  2. 方法核心:提出一种无需音频的方法,在预训练神经音频指纹模型的潜在嵌入空间中,使用一个 Rectified Flow(流匹配) 模型学习真实指纹的分布,并生成高保真的合成指纹作为“干扰项”。
  3. 创新点:首次提出利用生成模型在潜在空间合成干扰指纹来模拟百万级甚至亿级数据库的评估场景,完全摆脱了对额外音频数据的依赖。这是一个针对评估流程的框架性创新。
  4. 主要实验结果:在四个开源指纹系统(NAFP, GraFPrint, PeakNetFP, NMFP)上验证,合成指纹的分布与真实指纹高度匹配(JS散度≈0.002-0.011),且使用合成干扰项得到的检索性能(HR@1)随数据库规模增大的下降趋势,与使用真实干扰项得到的趋势高度一致(见图2)。论文还预测了1亿级规模下的性能降级(从14.25%到55.26%不等,见表3)。
  5. 实际意义:为音频指纹研究提供了一个高效、可复现、低成本的标准化大规模评估平台,能系统性地压力测试不同系统的可扩展性瓶颈。
  6. 主要局限性:该评估框架的效度依赖于“生成指纹分布能等效真实干扰”的假设;生成器需要为每个指纹系统单独训练;论文主要评估了基于IVF-PQ的检索,对其他索引方法的泛化性需更多验证。


11. Do Speech LLMs Learn Crossmodal Embedding Spaces?

6.5/10 | 前50% | #音频检索 | #模型评估 | #语音大模型 #跨模态

👥 作者与机构

  • 第一作者:Carlos Escolano(TALP Research Center, Universitat Politècnica de Catalunya)
  • 通讯作者:未说明
  • 作者列表:Carlos Escolano(TALP Research Center, Universitat Politècnica de Catalunya)、Gerard Sant(University of Zurich)、José A.R. Fonollosa(TALP Research Center, Universitat Politècnica de Catalunya)

💡 毒舌点评

本文最大的亮点是提供了一个系统且可量化的框架来“解剖”语音大模型的黑箱内部,明确指出了当前主流架构在“让模型听懂语义”与“保留说话人特征”之间难以兼得的根本困境,为后续研究提供了清晰的“病历本”。短板在于,作为一篇诊断性工作,它揭示了问题却几乎没开药方,且仅对比了几个特定模型,结论的普适性有待更广泛模型的验证。

📌 核心摘要

  1. 要解决的问题:语音大模型(Speech LLMs)需要将语音信号映射到LLM的文本嵌入空间,但这一映射过程的性质(是否形成良好的跨模态嵌入空间)和代价(是否会丢失副语言信息)尚未被系统研究。
  2. 方法核心:提出一套评估指标(各向同性分数IsoScore、Hubness的Robin Hood分数、关系相似性RS),并结合跨模态检索、性别分类、口音分类等探针任务,对不同架构的语音大模型(保留连续语音编码器表示 vs. 从头学习离散语音单元)进行系统分析。
  3. 与已有方法相比新在哪里:首次从嵌入空间几何属性(各向同性、Hubness、同构性)的角度,定量对比了纯编码器模型(SONAR)与多种解码器架构的语音大模型(Spire, Qwen2-Audio, Phi4-Multimodal)。明确揭示了现有语音大模型在跨模态对齐质量上仍逊于专门的多模态编码器,并发现了两种主流设计范式(连续表示 vs. 离散表示)在语义对齐和副语言信息保留方面存在的根本性权衡。
  4. 主要实验结果:
    • 跨模态映射属性:在FLEURS数据集上,所有语音大模型的IsoScore均低于0.05,远低于SONAR的0.0425;RH分数(越低越好)均高于0.35,差于SONAR的0.25;RS分数(越高越好)均低于0.55,远低于SONAR的0.94。
    • 检索性能:在FLEURS(精确句对)和Spoken SQuAD(主题匹配)数据集上,语音大模型的Top-1检索准确率(FLEURS @1)在16-18%之间,与SONAR(19.19%)接近,但Spire稍弱(11.54%)。
    • 副语言信息保留与权衡:使用连续编码器的模型(Phi4, Qwen2)在浅层能很好地区分性别(准确率~85%)和口音,但随着层深增加,性能显著下降(见图1)。而使用离散单元的Spire则能稳定保留性别信息(全层>82%),但在SD-QA数据集的口音分类上,对某些口音(如IND-S, NGA)的准确率下降近20%,显示鲁棒性不足(见表2)。
    • 关键数据表格:
      模型IsoScore ↑RH ↓RS ↑FLEURS @1 ↑Spoken SQUAD @1 ↑
      SONAR0.04250.250.9454.25%19.19%
      Phi4-Multimodal0.00040.350.5354.04%16.37%
      Qwen2-Audio0.00020.410.5553.55%18.35%
      Spire0.00010.430.1650.17%11.54%
  5. 实际意义:为语音大模型的设计提供了重要启示:1)当前基于LLM的架构在跨模态嵌入空间质量上仍有很大提升空间,可能需要更复杂的非线性映射。2)模型设计者必须在“保持语义对齐强度”与“保留丰富的副语言信息/对多样口音的鲁棒性”之间做出明确权衡。
  6. 主要局限性:研究局限于对4个特定模型的分析,结论的普适性需要在更多模型上验证;所提出的评估框架本身可能需要更多验证;论文主要进行诊断分析,未提出具体的改进模型或算法来解决所发现的权衡问题。