ICASSP 2026 - 音频描述 论文列表

ICASSP 2026 - 音频描述 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging 7.0分 前25% 📋 论文详情 🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence ✅ 7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写“未说明” 明确标注通讯作者(如论文可判断),否则写“未说明” 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写“未说明” 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Hyeongkeun Lee(韩国科学技术院, KAIST) 通讯作者:未说明 ...

2026-04-29

LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence

📄 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence #音频描述 #跨模态对齐 #大语言模型 #音频场景理解 ✅ 7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写“未说明” 明确标注通讯作者(如论文可判断),否则写“未说明” 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写“未说明” 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Hyeongkeun Lee(韩国科学技术院, KAIST) 通讯作者:未说明 作者列表:Hyeongkeun Lee(韩国科学技术院, KAIST), Jongmin Choi(韩国科学技术院, KAIST), KiHyun Nam(韩国科学技术院, KAIST), Joon Son Chung(韩国科学技术院, KAIST) 💡 毒舌点评 这篇论文在技术上做得扎实,首次将柯西-散度引入音频-文本对齐并取得了SOTA,证明了其有效性。但整体框架更像是现有“音频编码器+LLM解码器”范式的一个精细化升级,而非颠覆性创新,且主要验证集中在AudioCaps一个数据集上,泛化性的说服力略显不足。 ...

2026-04-29