Probing Cross-modal Information Hubs in Audio-Visual LLMs

📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs #多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解 ✅ 6.5/10 | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | arxiv 学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Jihoo Jung(未说明所属机构) 通讯作者:未明确说明(论文未明确指出通讯作者) 作者列表:Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。 💡 毒舌点评 论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念,迁移到了更为复杂的音频-视觉大语言模型(AVLLM)中,并揭示了其功能异质性(单模态 vs. 跨模态),这是一个清晰且有价值的洞察。然而,其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据,这在很大程度上限制了其发现对于更通用、更开放的生成场景(如自由形式问答、长文本生成)的普适性和说服力。 📌 核心摘要 问题:当前对音频-视觉大语言模型(AVLLM)的内部工作机制,特别是跨模态信息如何在不同模态的token间流动和存储,缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。 方法核心:提出一个“单模态主导”框架,利用因果追踪技术,专门研究当模型输出主要由单一模态(如仅音频或仅视频)决定时,来自主导模态的信息是如何被编码到非主导模态的token中的。基于此,定义了“跨模态汇聚点”这一关键token子集,并进一步提出了一种无需训练的自适应解码方法(ASD)来缓解物体幻觉。 新意:相比于已有针对LLM/VLM的可解释性工作,本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造,而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景,并得出了关于“跨模态汇聚点”功能异质性的新洞察。 实验结果:在五个开源AVLLM(Qwen2.5-Omni, video-SALMONN系列)上的因果追踪实验表明,跨模态信息主要存储在跨模态汇聚点中(IE值显著高于随机token和对象token)。应用ASD方法后,在VGGSound-Animal等数据集上,模型的物体幻觉指标(如CHAIR的C_S, C_I)得到显著降低(例如,在video-SALMONN-o1上,C_S从37.74降至25.07)。 实际意义:为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案,具有实际应用价值,有助于提升AVLLM在真实世界场景中的输出可靠性。 主要局限:验证主要基于选择题式的分类任务,对更开放的生成场景验证不足;所提出的ASD方法引入了推理延迟(约3.7倍);部分模型(如video-SALMONN2+)基线幻觉已很低,方法提升空间有限。 🔗 开源详情 代码:https://github.com/kaistmm/crossmodal-hub 模型权重: Qwen2.5-Omni (7B/3B): 论文中引用了这些模型,其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B Qwen2.5-Omni-3B: https://huggingface.co/Qwen/Qwen2.5-Omni-3B video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式,其权重可通过以下官方 GitHub 仓库获取: video-SALMONN 系列: https://github.com/TMElyralab/Video-SALMONN (注:具体模型权重文件可在上述仓库的 weights 目录或通过 HuggingFace 的关联仓库下载,论文未提供直接链接) 数据集: VGGSound: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集,可通过其官方网站获取:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集,可通过官方网站获取:https://research.google.com/audioset/ VGGSounder: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文,但论文未提供直接下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 论文附录(Appendix)提供了详尽的复现细节,包括: Sink Token 定义与选择:详细说明了如何识别全局 sink token,包括使用的维度、阈值等(见附录 A.1)。 数据集构建细节:提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程(见附录 A.2)。 算法细节:给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置(见附录 A.3)。 基线方法适配:说明了如何将 PAI 和 VCD 方法适配到音视频设置(见附录 A.4)。 这些信息足以支持研究复现,但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。 论文中引用的开源项目: Qwen2.5-Omni / Qwen3-Omni: 由阿里云通义千问团队发布的多模态大语言模型。 仓库:https://github.com/QwenLM/Qwen2.5-Omni video-SALMONN / video-SALMONN2+: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。 仓库:https://github.com/TMElyralab/Video-SALMONN VGGSound: 音频-视觉分类数据集。 主页:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 音频事件分类数据集。 主页:https://research.google.com/audioset/ DETR (DEtection TRansformer): 用于目标检测的 Transformer 模型。 仓库:https://github.com/facebookresearch/detr Sound Event Detection Model (引用为 (Wu et al., 2025)): 用于识别音频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。 Image Segmentation Model (引用为 (Ravi et al., 2025)): 用于识别视频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。 LLaMA: 作为一些早期 AVLLM 的基础模型被引用。 仓库:https://github.com/meta-llama/llama VGGSounder: 对 VGGSound 进行重新标注的评估集,用于构建更全面的 ground-truth。 论文引用来源为 (Zverev et al., 2025),但未提供直接链接。 🏗️ 方法概述和架构 本文的核心方法旨在探明AVLLM中跨模态信息的存储位置,并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段:分析阶段(因果追踪)和应用阶段(自适应解码)。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 724 words

Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought

📄 Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought #音视频问答 #多模态模型 #跨模态推理 #幻觉缓解 #强化学习 #链式思维 ✅ 6.0/10 | 前50% | #音视频问答 | #结构化推理 | #多模态模型 #跨模态推理 | arxiv 学术质量 6.0/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Xuanchen (未说明) 通讯作者:未说明 作者列表:Xuanchen Li (未说明), Yuheng Lu (未说明), Chenrui Cui (未说明), Tianrui Wang (未说明), Zikang Huang (未说明), Yu Jiang (未说明), Long Zhou (未说明), Longbiao Wang (未说明), Jianwu Dang (未说明) 💡 毒舌点评 论文针对音视频LLM中的跨模态干扰和幻觉问题,提出了一个结构清晰、动机合理的“先分离后融合”框架。其核心贡献在于将“模态分离推理”的文本结构与“模态非对称注意力掩码”的底层计算约束相结合,并用两阶段强化学习进行训练。然而,其创新性更多体现在对已有技术(结构化CoT、自定义注意力掩码、RL奖励工程)的针对性组合与应用,而非提出根本性的新机制。此外,论文声称的“state-of-the-art”性能建立在与并非当前最强基线的对比之上,且实验缺乏统计显著性检验,这在一定程度上削弱了结论的强度。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 660 words