Probing Cross-modal Information Hubs in Audio-Visual LLMs

📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs #多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解 ✅ 6.5/10 | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | arxiv 学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Jihoo Jung(未说明所属机构) 通讯作者:未明确说明(论文未明确指出通讯作者) 作者列表:Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。 💡 毒舌点评 论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念,迁移到了更为复杂的音频-视觉大语言模型(AVLLM)中,并揭示了其功能异质性(单模态 vs. 跨模态),这是一个清晰且有价值的洞察。然而,其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据,这在很大程度上限制了其发现对于更通用、更开放的生成场景(如自由形式问答、长文本生成)的普适性和说服力。 📌 核心摘要 问题:当前对音频-视觉大语言模型(AVLLM)的内部工作机制,特别是跨模态信息如何在不同模态的token间流动和存储,缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。 方法核心:提出一个“单模态主导”框架,利用因果追踪技术,专门研究当模型输出主要由单一模态(如仅音频或仅视频)决定时,来自主导模态的信息是如何被编码到非主导模态的token中的。基于此,定义了“跨模态汇聚点”这一关键token子集,并进一步提出了一种无需训练的自适应解码方法(ASD)来缓解物体幻觉。 新意:相比于已有针对LLM/VLM的可解释性工作,本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造,而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景,并得出了关于“跨模态汇聚点”功能异质性的新洞察。 实验结果:在五个开源AVLLM(Qwen2.5-Omni, video-SALMONN系列)上的因果追踪实验表明,跨模态信息主要存储在跨模态汇聚点中(IE值显著高于随机token和对象token)。应用ASD方法后,在VGGSound-Animal等数据集上,模型的物体幻觉指标(如CHAIR的C_S, C_I)得到显著降低(例如,在video-SALMONN-o1上,C_S从37.74降至25.07)。 实际意义:为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案,具有实际应用价值,有助于提升AVLLM在真实世界场景中的输出可靠性。 主要局限:验证主要基于选择题式的分类任务,对更开放的生成场景验证不足;所提出的ASD方法引入了推理延迟(约3.7倍);部分模型(如video-SALMONN2+)基线幻觉已很低,方法提升空间有限。 🔗 开源详情 代码:https://github.com/kaistmm/crossmodal-hub 模型权重: Qwen2.5-Omni (7B/3B): 论文中引用了这些模型,其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B Qwen2.5-Omni-3B: https://huggingface.co/Qwen/Qwen2.5-Omni-3B video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式,其权重可通过以下官方 GitHub 仓库获取: video-SALMONN 系列: https://github.com/TMElyralab/Video-SALMONN (注:具体模型权重文件可在上述仓库的 weights 目录或通过 HuggingFace 的关联仓库下载,论文未提供直接链接) 数据集: VGGSound: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集,可通过其官方网站获取:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集,可通过官方网站获取:https://research.google.com/audioset/ VGGSounder: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文,但论文未提供直接下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 论文附录(Appendix)提供了详尽的复现细节,包括: Sink Token 定义与选择:详细说明了如何识别全局 sink token,包括使用的维度、阈值等(见附录 A.1)。 数据集构建细节:提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程(见附录 A.2)。 算法细节:给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置(见附录 A.3)。 基线方法适配:说明了如何将 PAI 和 VCD 方法适配到音视频设置(见附录 A.4)。 这些信息足以支持研究复现,但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。 论文中引用的开源项目: Qwen2.5-Omni / Qwen3-Omni: 由阿里云通义千问团队发布的多模态大语言模型。 仓库:https://github.com/QwenLM/Qwen2.5-Omni video-SALMONN / video-SALMONN2+: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。 仓库:https://github.com/TMElyralab/Video-SALMONN VGGSound: 音频-视觉分类数据集。 主页:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 音频事件分类数据集。 主页:https://research.google.com/audioset/ DETR (DEtection TRansformer): 用于目标检测的 Transformer 模型。 仓库:https://github.com/facebookresearch/detr Sound Event Detection Model (引用为 (Wu et al., 2025)): 用于识别音频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。 Image Segmentation Model (引用为 (Ravi et al., 2025)): 用于识别视频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。 LLaMA: 作为一些早期 AVLLM 的基础模型被引用。 仓库:https://github.com/meta-llama/llama VGGSounder: 对 VGGSound 进行重新标注的评估集,用于构建更全面的 ground-truth。 论文引用来源为 (Zverev et al., 2025),但未提供直接链接。 🏗️ 方法概述和架构 本文的核心方法旨在探明AVLLM中跨模态信息的存储位置,并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段:分析阶段(因果追踪)和应用阶段(自适应解码)。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 724 words

Connecting Layer-Wise Representation of Wavlm with Spectro-Temporal Modulation on Speaker Verification

📄 Connecting Layer-Wise Representation of Wavlm with Spectro-Temporal Modulation on Speaker Verification #说话人验证 #自监督学习 #模型分析 #可解释性 ✅ 6.0/10 | 前50% | #说话人验证 | #自监督学习 | #模型分析 #可解释性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Shao-Hsuan Chen (⋆ 国立阳明交通大学电机工程学系) 通讯作者:未明确说明(根据惯例,可能是最后作者Tai-Shih Chi或Yuan-Fu Liao) 作者列表: Shao-Hsuan Chen (⋆ 国立阳明交通大学电机工程学系) Pei-Chin Hsieh (⋆ 国立阳明交通大学电机工程学系) Yih-Liang Shen (⋆ 国立阳明交通大学电机工程学系) Tai-Shih Chi (⋆ 国立阳明交通大学电机工程学系) Yuan-Fu Liao († 国立阳明交通大学人工智能创新研究所) Chi-Han Lin (‡ 玉山金融控股股份有限公司) Juan-Wei Xu (‡ 玉山金融控股股份有限公司) (⋆、†、‡ 标记对应其后机构,机构信息已在列表中明确标注) 💡 毒舌点评 论文最大的亮点在于为理解WavLM这类黑箱模型提供了一种新颖的“神经科学视角”,通过构建频谱-时空调制特征,发现模型中间层确实编码了类似听觉皮层的选择性(如对性别相关的谐波结构敏感),这种交叉学科的分析思路值得肯定。然而,其短板也十分明显:实验设计基本局限于TIMIT数据集的性别子集分析,更像是一个初步的、小规模的现象观察,未能将这些“生物启发式”的发现与提升实际说话人验证系统(如在VoxCeleb大规模数据上的性能)建立直接联系,使得论文的实用价值和影响力打了折扣。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 214 words