ICASSP 2026 - 音频描述

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇LAMB: LLM-Based Audio Captioning with Modality Gap Bridging7.0分前25%

📋 论文详情

🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence

7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解

👥 作者与机构

请基于当前提供的论文内容尽量完整提取作者与机构信息,要求:

  1. 明确标注第一作者(如论文可判断),否则写“未说明”
  2. 明确标注通讯作者(如论文可判断),否则写“未说明”
  3. 列出能确认的作者姓名及其所属机构(大学、实验室、公司)
  4. 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级
  5. 禁止猜测机构信息;无法确认时明确写“未说明”

输出格式示例:

  • 第一作者:张三(清华大学计算机系)

  • 通讯作者:李四(Google DeepMind)

  • 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明)

  • 第一作者:Hyeongkeun Lee(韩国科学技术院, KAIST)

  • 通讯作者:未说明

  • 作者列表:Hyeongkeun Lee(韩国科学技术院, KAIST), Jongmin Choi(韩国科学技术院, KAIST), KiHyun Nam(韩国科学技术院, KAIST), Joon Son Chung(韩国科学技术院, KAIST)

💡 毒舌点评

这篇论文在技术上做得扎实,首次将柯西-散度引入音频-文本对齐并取得了SOTA,证明了其有效性。但整体框架更像是现有“音频编码器+LLM解码器”范式的一个精细化升级,而非颠覆性创新,且主要验证集中在AudioCaps一个数据集上,泛化性的说服力略显不足。

🔗 开源详情

  • 代码:是。论文在摘要和结论部分均提供了代码仓库链接:https://github.com/Hyeongkeun/LAMB。
  • 模型权重:未提及。
  • 数据集:使用了公开数据集(AudioCaps, Clotho, WavCaps),论文中说明了数据获取来源(如链接),但未提及是否有额外处理过的版本发布。
  • Demo:未提及。
  • 复现材料:提供了基本的实现细节,如音频编码器、LLM型号、LoRA、查询数量、优化器、学习率、批大小、训练轮数等,但未提供详细的训练脚本、配置文件或检查点。
  • 论文中引用的开源项目:音频编码器采用“Consistent Ensemble Distillation”模型;文本解码器采用LLaMA 2;使用LoRA进行微调;使用InfoNCE损失和UMAP进行可视化。

📌 核心摘要

这篇论文旨在解决基于大语言模型的自动音频描述(AAC)任务中存在的模态差距问题,即音频特征被简单投影到LLM嵌入空间后,与文本嵌入空间对齐不佳,限制了LLM的推理能力。方法核心是提出LAMB框架,其创新之处在于首次将柯西-散度引入AAC任务,设计了一个跨模态对齐器(Cross-Modal Aligner)来最小化音频与文本分布的距离,同时最大化互信息。此外,通过双流适配器(Two-Stream Adapter)提取更丰富的语义和时序音频特征,并利用令牌引导(Token Guide)在LLM词表空间内直接引导解码。在AudioCaps数据集上,LAMB在CIDEr、SPIDEr等指标上取得了显著提升(如CIDEr从SOTA的84.1提升到91.1),达到了新的技术水平。其实际意义在于证明了显式跨模态对齐对于释放LLM在音频理解任务中潜力的关键作用。主要局限性在于,尽���在AudioCaps上表现突出,但在更复杂、标注更多样的Clotho数据集上,性能提升相对有限,且其泛化性在其他音频任务上尚未得到验证。