音频描述 | 语音/音乐/音频论文速递

ICASSP 2026 - 音频描述共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging 7.0分前25% 📋 论文详情 🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence ✅ 7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Hyeongkeun Lee（韩国科学技术院， KAIST）通讯作者：未说明 ...

📄 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence #音频描述 #跨模态对齐 #大语言模型 #音频场景理解 ✅ 7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Hyeongkeun Lee（韩国科学技术院， KAIST）通讯作者：未说明作者列表：Hyeongkeun Lee（韩国科学技术院， KAIST）， Jongmin Choi（韩国科学技术院， KAIST）， KiHyun Nam（韩国科学技术院， KAIST）， Joon Son Chung（韩国科学技术院， KAIST） 💡 毒舌点评这篇论文在技术上做得扎实，首次将柯西-散度引入音频-文本对齐并取得了SOTA，证明了其有效性。但整体框架更像是现有“音频编码器+LLM解码器”范式的一个精细化升级，而非颠覆性创新，且主要验证集中在AudioCaps一个数据集上，泛化性的说服力略显不足。 ...