SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
📄 SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training #音频检索 #音频分类 #多模态模型 #预训练 #对比学习 🔥 8.0/10 | 前25% | #音频检索 | #预训练 | #音频分类 #多模态模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Xinhao Mei(Meta) 通讯作者:未说明 作者列表:Xinhao Mei(Meta)、Gael Le Lan(Meta)、Haohe Liu(Meta)、Zhaoheng Ni(Meta)、Varun Nagaraja(Meta)、Yang Liu(Meta)、Yangyang Shi(Meta)、Vikas Chandra(Meta) 💡 毒舌点评 SLAP在CLAP的“变长音频处理”和“单阶段多目标训练”两个痛点上给出了工程与学术结合得相当漂亮的方案,尤其序列打包技巧很实用。但宣称的“109M数据”优势建立在未公开的私有数据集上,这削弱了其结论的可复现性和说服力,让后续研究者难以直接验证或跟进其“规模至上”的逻辑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的预训练或微调模型权重。 数据集:使用的预训练数据集(MovieGen Audio)未公开。评估所用数据集(AudioCaps, Clotho, ESC-50等)为公开基准。 Demo:未提及在线演示。 复现材料:提供了详细的模型架构配置(如层数、维度)、超参数(学习率、batch size、掩码比例等)、训练策略(预热、EMA)和数据预处理步骤,这些信息有助于复现。但缺少代码和数据,完全复现难度很大。 论文中引用的开源项目:引用了Flash Attention [17]用于高效计算,以及ModernBERT [15]、SpecAugment [22]等开源工作/工具。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:当前对比语言-音频预训练(CLAP)模型存在三大局限:训练数据规模相对较小(通常百万级)、音频输入时长固定(通常≤10秒)且需要填充/截断、以及全局对比学习损失阻碍了密集细粒度音频特征的学习。 方法核心是什么:提出SLAP框架,通过三点解决上述问题:(1) 将预训练规模扩展至1.09亿音频-文本对;(2) 重新设计Transformer音频编码器,支持最长30秒的变长音频输入,并采用混合注意力机制与序列打包技术高效处理;(3) 统一对比损失、自监督掩码建模损失和字幕生成损失到单阶段训练中。 与已有方法相比新在哪里:相比先前工作,SLAP首次将音频-文本预训练推向亿级数据规模;其音频编码器从头训练,原生支持变长输入,避免了填充/截断;其统一的单阶段多目标训练管道简化了流程(不同于多阶段方法),旨在同时学习全局对齐和局部密集特征。 主要实验结果如何: 音频文本检索(Table 1):在AudioCaps和Clotho数据集上,无论是零样本还是微调设置,SLAP均达到了SOTA性能。例如,在微调后,AudioCaps文本到音频检索的R@1达到47.5%,Clotho的音频到文本检索R@1达到36.8%。 零样本音频分类(Table 2):在ESC-50、CREMA-D和GTZAN数据集上,通过在WavCaps上微调后,SLAP取得了新的SOTA(如ESC-50上达到95.5%)。 音频字幕(Table 3):在AudioCaps和Clotho上,SLAP的CIDEr分数(75.1和43.7)优于M2D2-CLAP等采用多阶段训练的CLAP方法。 消融研究(Table 5):在AudioCaps零样本检索上,去除自监督损失(L_SSL)或字幕损失(L_CAP)均导致性能下降,证明了多目标训练的有效性;去除局部注意力也带来性能损失。 实际意义是什么:证明了大规模、灵活(变长)、多目标预训练对学习强大通用音频表示的重要性。SLAP模型可作为强大的音频基础模型,服务于音频检索、分类、字幕等多种下游任务。 主要局限性是什么:预训练使用的MovieGen Audio数据集未公开,这限制了方法的完全复现和对数据规模效应的独立验证;尽管支持变长音频,但报告的测试集音频长度仍在30秒内,更长时序的处理能力未验证;在音频标注(AudioSet)等任务上,并未显著超越最强的专用模型。 🏗️ 模型架构 图1展示了SLAP的整体训练框架。模型主要由三部分组成:音频编码器、文本编码器/解码器和多目标训练管道。 ...