ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models
📄 ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models #音频问答 #对比学习 #参数高效微调 7.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #对比学习 | #音频问答 #参数高效微调 | arxiv 👥 作者与机构 论文作者为Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee,分别来自浙江大学和约翰斯·霍普金斯大学。 💡 毒舌点评 这篇论文更像是一个工程上“有效”的系统构建报告,而非一篇贡献突出的学术研究。其核心思想——将一个强大的音频语言模型转换为嵌入模型——在直觉上合理,但缺乏令人信服的“为什么这样做以及为什么是这样”的深度分析。论文在方法论上缺乏关键设计选择的消融实验(例如,为什么用[EOS]?LoRA适配是否最优?),在评估上未能充分量化其宣称的“可控性”,在局限性探讨上流于表面。整体上,它更像一篇扎实的硕士论文或技术报告,其方法论创新和实验分析的深度尚未达到顶会所期望的水平。 📌 核心摘要 本文提出了ALM2Vec,一个从预训练大型音频语言模型(ALLM,具体为MiDashengLM)衍生而来的通用音频嵌入框架。该框架旨在将ALLM在大规模多模态训练中获得的音频理解、指令遵循和推理能力,转化为支持跨音频领域(如音效、语音、音乐)、跨任务类型(检索、问答)且可指令控制的统一嵌入空间。模型使用ALLM的[EOS] token隐藏状态作为全局表示,并通过双向对比学习进行训练。实验表明,ALM2Vec在标准音频和语音检索基准上性能与强基线(如CLAP)相当或更优,在指令条件音频问答(MMAU-Mini)上也能与一些大型音频语言模型竞争,尽管微调后性能略有下降。定性案例展示了其根据指令检索音频特定属性的能力。 ...