📄 GLAP: General Contrastive Audio-Text Pretraining Across Domains and Languages
#音频检索 #对比学习 #预训练 #多语言 #零样本
🔥 8.5/10 | 前25% | #音频检索 | #对比学习 #预训练 | #对比学习 #预训练
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高
👥 作者与机构
- 第一作者:Heinrich Dinkel (MiLM Plus, Xiaomi Inc., China)
- 通讯作者:未说明
- 作者列表:Heinrich Dinkel (MiLM Plus, Xiaomi Inc., China)、Zhiyong Yan (MiLM Plus, Xiaomi Inc., China)、Tianzi Wang (MiLM Plus, Xiaomi Inc., China)、Yongqing Wang (MiLM Plus, Xiaomi Inc., China)、Xingwei Sun (MiLM Plus, Xiaomi Inc., China)、Yadong Niu (MiLM Plus, Xiaomi Inc., China)、Jizhong Liu (MiLM Plus, Xiaomi Inc., China)、Gang Li (MiLM Plus, Xiaomi Inc., China)、Junbo Zhang (MiLM Plus, Xiaomi Inc., China)、Jian Luan (MiLM Plus, Xiaomi Inc., China)
💡 毒舌点评
亮点:GLAP真正实现了将语音内容理解无缝整合进音频-文本对齐框架,并在多语言语音任务上取得了远超前辈模型(如L-CLAP, MSCLAP)的惊人效果,证明了“一个模型通吃所有音频类型”的可行性。短板:其语音理解能力的显著提升,很大程度上归功于选择了对语音建模能力强的Dasheng作为音频编码器,这更像是一个工程上的“正确组合”,而非方法论上的根本性突破,且其性能在非英语语言的零样本声音分类上仍有明显衰减。
📌 核心摘要
- 问题:现有的对比语言-音频预训练(CLAP)模型主要针对英文的声音和音乐事件,在处理语音(spoken language)内容和多语言任务上表现不佳,无法满足通用音频理解的需求。
- 方法核心:提出GLAP(General Language Audio Pretraining) 框架。核心是在对比学习框架下,使用一个通用音频编码器(Dasheng) 来提取音频特征,并与强大的多语言文本编码器(Sonar) 的文本特征进行对齐。训练时,除了英文声音/音乐数据,还加入了大规模多语言语音数据(YODAS)以及通过机器翻译得到的多语言声音/音乐描述。
- 与已有方法相比新在哪里:a) 统一性:首次在一个单一框架中,平衡了声音事件、音乐和语音内容的理解能力,不牺牲原有声音/音乐任务的性能。b) 多语言:系统性地将多语言能力扩展至音频-文本对齐模型,在50种语言的关键词识别等任务上展现出前所未有的效果。c) 训练目标:采用更适合大批次的sigmoid loss替代标准的交叉熵损失,在检索任务上获得1%-5%的性能提升。
- 主要实验结果:
- 检索:在音乐/语音检索基准(LibriSpeech, AISHELL-2, MusicCaps)上大幅超越现有方法,例如在LibriSpeech Test-other上文本到音频检索R@1达到93.8%(对比最强基线L-CLAP的0.1%)。在标准声音事件检索基准(AudioCaps, Clotho)上达到或超越SOTA水平,如在AudioCaps上文本到音频R@1达到41.7%。
- 零样本分类:在Speech Commands V1/V2(SCV1/2)等语音指令数据集上,准确率高达96.6%和95.8%,远超所有基线。在声音和音乐分类任务(ESC-50, GTZAN等)上保持竞争力。
- 多语言:在包含50种语言的MSW数据集上进行零样本关键词识别,平均准确率显著,并在如奥里亚语、瓜拉尼语等低资源语言上取得较好效果。多语言声音/音乐分类(表7)显示,虽然性能较英语有所下降,但模型仍有效。
- 关键结果见表2(检索)、表5(零样本分类)和图3(多语言)。
- 实际意义:GLAP为构建能够理解完整音频内容(包括声音、音乐和语音) 的通用音频基础模型提供了可行方案,尤其在多语言和跨领域检索、零样本分类方面具有重要应用价值,推动了音频智能从“事件检测”向“内容理解”的演进。
- 主要局限性:a) 模型对语音内容的强大理解能力,部分依赖于选择特定的预训练音频编码器(Dasheng),其架构细节非本文重点。b) 多语言声音/音乐分类性能较英语有明显下降(表7),表明跨语言泛化仍有提升空间。c) 训练数据YODAS包含大量自动转录的噪声数据,可能影响上限。
🏗️ 模型架构
GLAP采用标准的双塔对比学习架构,如图2所示。

- 整体流程:输入为音频-文本对(a, t)。分别通过音频编码器和文本编码器提取特征,再经过线性映射层(MLP)对齐维度,最后计算特征向量间的余弦相似度作为得分。训练目标是拉近匹配对的相似度,推远不匹配对的相似度。
- 音频编码器 (E_A):选择预训练的Dasheng模型。它是一个通用的音频表示模型,设计目标是在声音、音乐和语音任务上都有良好表现。论文中将其与CED, Beats, Whisper, WavLM等编码器进行了对比(表4),发现Dasheng在跨域任务上最均衡。
- 文本编码器 (E_T):使用预训练的多语言文本编码器Sonar。这是一个基于Transformer的模型,能够处理多种语言,为GLAP的多语言能力提供基础。
- 对齐层 (MLP):在音频和文本编码器之后,各添加一个可训练的多层感知机(MLP)。其作用是将不同编码器输出的特征向量映射到相同的维度空间,以便计算相似度。
- 相似度计算:使用余弦距离
s = (e_a · e_t^T) / (||e_a|| · ||e_t||)。 - 训练目标:采用sigmoid损失函数(L),其公式为
L = -1/B Σ_i Σ_j log σ(s'(i,j) ψ[i,j]),其中s'(i,j) = s(i,j) + β/τ,ψ[i,j]是标签(正对为1,负对为-1),β和τ是可学习参数。这种损失在大批次下性能更优。
💡 核心创新点
提出统一的多领域音频-文本对比预训练框架(GLAP):
- 局限:先前的CLAP模型专注于声音和音乐,对语音内容的理解很差(如表2和表5所示,基线在语音任务上近乎失效)。
- 如何起作用:通过设计一个兼顾声音、音乐和语音的统一训练流程,并刻意选择或验证一个“通用”的音频编码器(Dasheng),使得一个模型能够同时处理这三类音频内容。
- 收益:在单一模型中实现了音频理解的“大一统”,在维持声音/音乐任务性能的前提下,极大提升了语音检索和分类任务的表现。
系统性的多语言音频-文本对齐能力:
- 局限:大多数CLAP模型仅支持英文文本。
- 如何起作用:a) 利用多语言文本编码器Sonar作为文本端。b) 引入覆盖145种语言的大规模多语言语音数据集YODAS。c) 对声音和音乐数据的英文描述,使用Sonar自动翻译成7种其他主要语言,生成多语言描述对。
- 收益:使模型能够处理非英语的文本输入,并在50种语言的关键词识别等多语言任务上实现了强大的零样本性能(图3)。
采用sigmoid损失函数进行训练:
- 局限:标准的交叉熵对比损失在超大批次训练中可能不是最优选择。
- 如何起作用:采用sigmoid损失作为主要目标,它对正负样本对独立处理,更适合大规模负样本的对比学习。
- 收益:论文报告在所有检索任务上获得了1%-5%的性能提升。
🔬 细节详述
- 训练数据:
- 语音:主要使用YODAS(400k小时,145种语言),为提高质量,补充了GigaSpeech(英文)、LibriSpeech(英文)、AISHELL-1(中文)。为平衡数据,将语音数据分为四组(英文、中文、其他语言、声音+音乐)并等比例采样。
- 声音:使用了Sound-VECapsA, Auto-ACD, AudiosetCaps, WavCaps, AudioCaps, Clothov2等多个数据集。
- 音乐:使用了MusicCaps和Songdescriber。
- 多语言处理:所有声音和音乐数据的原始英文描述,通过Sonar自动翻译成德语、中文、加泰罗尼亚语、西班牙语、日语、法语和荷兰语。
- 损失函数:如公式(1)(2)所示,为带可学习温度参数和偏置的sigmoid对比损失。
- 训练策略:
- 优化器:8位Adam优化器。
- 学习率:预热阶段从0到10⁻⁴(前2个epoch),然后衰减到10⁻⁵,使用余弦衰减调度器。
- 批次大小:有效批大小为1024(每GPU 128)。
- 训练轮数:最多20个epoch,每个epoch 10,000个batch。
- 关键超参数:音频和文本特征均映射到共同维度(具体值未说明)。损失函数中
τ和β初始化为0.07和-10。 - 训练硬件:未说明 GPU型号、数量和训练总时长。
- 推理细节:对于零样本分类,使用特定的文本提示模板(表3)。例如,对于声音事件,提示为“The sound of {label} can be heard.”。
- 正则化技巧:未提及明确的正则化技巧(如Dropout, Weight Decay)。
📊 实验结果
主要实验结果表格:
表2:音乐/语音检索结果 (R@1, R@10)
| 模型 | LibriSpeech (T@A) R@1 | LibriSpeech (T@A) R@10 | LibriSpeech (A@T) R@1 | LibriSpeech (A@T) R@10 | AISHELL-2 (T@A) R@1 | AISHELL-2 (T@A) R@10 | MusicCaps (A@T) R@1 | MusicCaps (A@T) R@10 |
|---|---|---|---|---|---|---|---|---|
| MSCLAP-2023 | 0.1 | 0.2 | 0.1 | 0.2 | 0.1 | 0.2 | 14.4 | 21.7 |
| L-CLAP | 0 | 0.2 | 0.0 | 0.2 | 0 | 0.2 | 17.2 | 25.5 |
| GLAP | 93.8 | 96.8 | 91.8 | 94.4 | 98.5 | 99.7 | 30.3 | 41.2 |
| 结论:GLAP在语音(英语和中文)检索上取得了压倒性优势,音乐检索性能也显著提升。 |
表6:声音事件检索结果 (AudioCaps, Clotho)
| 方法 | AudioCaps (T@A) R@1 | AudioCaps (A@T) R@1 | Clotho (T@A) R@1 | Clotho (A@T) R@1 |
|---|---|---|---|---|
| Wavcaps-HTSAT | 39.7 | 51.7 | 20.2 | 26.5 |
| MLCLAP | 40.7 | 50.1 | 18.8 | 21.1 |
| GLAP | 41.7 | 54.4 | 19.4 | 21.8 |
| 结论:GLAP在标准声音检索基准上达到或超越了当前最佳水平。 |
表5:零样本分类结果 (部分关键数据)
| 任务 | 数据集 | GLAP | 最强基线 (模型) |
|---|---|---|---|
| 语音 | Speech Commands V1 | 96.6% | 16.4% (MS-CLAP-2023) |
| Speech Commands V2 | 95.8% | 4.1% (L-CLAP) | |
| Fluent Speech Commands | 75.6% | 0.4% (BLAT) | |
| 声音 | ESC-50 | 88.8% | 91.0% (L-CLAP) |
| 音乐 | GTZAN | 69.6% | 58.4% (MS-CLAP-2023) |
| 结论:GLAP在语音指令分类上实现了革命性突破,声音和音乐分类则保持竞争力。 |
图3:多语言零样本关键词识别性能
结论:图示为50种语言在MSW数据集上的零样本准确率。性能跨度较大,但整体展示了GLAP强大的多语言覆盖能力,即使在低资源语言上也有不错表现。
表7:多语言声音/音乐零样本分类 (US8K, ESC-50, GTZAN)
| 数据集 | 英语 (En) | 德语 (De) | 中文 (zh-CN) | 日语 (Jp) | 俄语 (Ru) |
|---|---|---|---|---|---|
| US8K | 78.9 | 74.8 | 66.1 | 72.2 | 49.0 |
| ESC-50 | 88.8 | 64.3 | 71.4 | 74.3 | 62.1 |
| GTZAN | 69.6 | 68.3 | 62.5 | 63.2 | 65.3 |
| 结论:模型的多语言声音/音乐分类能力存在,但相较于英语基线性能有显著下降。 |
⚖️ 评分理由
- 学术质量:6.0/7。创新点清晰且实用,解决了CLAP模型在语音和多语言上的重大缺陷。技术方案(通用编码器+翻译数据+sigmoid损失)正确且有效。实验设计全面,对比了多个领域的多个基准,提供了丰富的数字证据。扣分在于:方法整体是对现有对比学习框架的应用���扩展,核心音频编码器Dasheng的细节并非本文原创;多语言能力部分依赖于外部强大的文本编码器和机器翻译。
- 选题价值:1.5/2。选题非常前沿,推动了音频-语言模型向通用内容理解和多语言支持发展,具有明确的学术价值和应用前景(如通用音频检索、多语言语音交互的前端)。
- 开源与复现加成:0.8/1。积极开源了代码和模型检查点,提供了详细的关键训练超参数和数据处理方法,极大便利了复现。未能提供训练硬件和时长信息,部分数据集的获取细节未说明。
🔗 开源详情
- 代码:提供了公开的代码仓库链接
github.com/xiaomi-research/dasheng-glap。 - 模型权重:论文明确提到“source code and checkpoints are publicly available”,即公开了模型检查点。
- 数据集:YODAS等部分数据集本身是公开的,但论文未详细说明其数据获取或处理后的发布方式。其他数据集(如AudioCaps, Clotho)为公开学术数据集。
- Demo:论文中未提及在线演示。
- 复现材料:提供了详细的训练配置(优化器、学习率调度、batch size、损失函数初始化)、模型架构选择依据和评估协议,复现信息较为充分。
- 论文中引用的开源项目:使用了Sonar文本编码器、Dasheng音频编码器(并对其进行了对比实验),以及依赖于多个公开的音频-文本数据集。