音频视觉 | 语音/音乐/音频论文速递

📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs #多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解 ✅ 6.5/10 | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | arxiv 学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度高 👥 作者与机构第一作者：Jihoo Jung（未说明所属机构）通讯作者：未明确说明（论文未明确指出通讯作者）作者列表：Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。 💡 毒舌点评论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念，迁移到了更为复杂的音频-视觉大语言模型（AVLLM）中，并揭示了其功能异质性（单模态 vs. 跨模态），这是一个清晰且有价值的洞察。然而，其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据，这在很大程度上限制了其发现对于更通用、更开放的生成场景（如自由形式问答、长文本生成）的普适性和说服力。 📌 核心摘要问题：当前对音频-视觉大语言模型（AVLLM）的内部工作机制，特别是跨模态信息如何在不同模态的token间流动和存储，缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。方法核心：提出一个“单模态主导”框架，利用因果追踪技术，专门研究当模型输出主要由单一模态（如仅音频或仅视频）决定时，来自主导模态的信息是如何被编码到非主导模态的token中的。基于此，定义了“跨模态汇聚点”这一关键token子集，并进一步提出了一种无需训练的自适应解码方法（ASD）来缓解物体幻觉。新意：相比于已有针对LLM/VLM的可解释性工作，本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造，而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景，并得出了关于“跨模态汇聚点”功能异质性的新洞察。实验结果：在五个开源AVLLM（Qwen2.5-Omni, video-SALMONN系列）上的因果追踪实验表明，跨模态信息主要存储在跨模态汇聚点中（IE值显著高于随机token和对象token）。应用ASD方法后，在VGGSound-Animal等数据集上，模型的物体幻觉指标（如CHAIR的C_S, C_I）得到显著降低（例如，在video-SALMONN-o1上，C_S从37.74降至25.07）。实际意义：为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案，具有实际应用价值，有助于提升AVLLM在真实世界场景中的输出可靠性。主要局限：验证主要基于选择题式的分类任务，对更开放的生成场景验证不足；所提出的ASD方法引入了推理延迟（约3.7倍）；部分模型（如video-SALMONN2+）基线幻觉已很低，方法提升空间有限。 🔗 开源详情代码：https://github.com/kaistmm/crossmodal-hub 模型权重： Qwen2.5-Omni (7B/3B): 论文中引用了这些模型，其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为： Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B Qwen2.5-Omni-3B: https://huggingface.co/Qwen/Qwen2.5-Omni-3B video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式，其权重可通过以下官方 GitHub 仓库获取： video-SALMONN 系列: https://github.com/TMElyralab/Video-SALMONN (注：具体模型权重文件可在上述仓库的 weights 目录或通过 HuggingFace 的关联仓库下载，论文未提供直接链接) 数据集： VGGSound: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集，可通过其官方网站获取：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集，可通过官方网站获取：https://research.google.com/audioset/ VGGSounder: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文，但论文未提供直接下载链接。 Demo：论文中未提及在线演示链接。复现材料：论文附录（Appendix）提供了详尽的复现细节，包括： Sink Token 定义与选择：详细说明了如何识别全局 sink token，包括使用的维度、阈值等（见附录 A.1）。数据集构建细节：提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程（见附录 A.2）。算法细节：给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置（见附录 A.3）。基线方法适配：说明了如何将 PAI 和 VCD 方法适配到音视频设置（见附录 A.4）。这些信息足以支持研究复现，但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。论文中引用的开源项目： Qwen2.5-Omni / Qwen3-Omni: 由阿里云通义千问团队发布的多模态大语言模型。仓库：https://github.com/QwenLM/Qwen2.5-Omni video-SALMONN / video-SALMONN2+: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。仓库：https://github.com/TMElyralab/Video-SALMONN VGGSound: 音频-视觉分类数据集。主页：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 音频事件分类数据集。主页：https://research.google.com/audioset/ DETR (DEtection TRansformer): 用于目标检测的 Transformer 模型。仓库：https://github.com/facebookresearch/detr Sound Event Detection Model (引用为 (Wu et al., 2025)): 用于识别音频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。 Image Segmentation Model (引用为 (Ravi et al., 2025)): 用于识别视频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。 LLaMA: 作为一些早期 AVLLM 的基础模型被引用。仓库：https://github.com/meta-llama/llama VGGSounder: 对 VGGSound 进行重新标注的评估集，用于构建更全面的 ground-truth。论文引用来源为 (Zverev et al., 2025)，但未提供直接链接。 🏗️ 方法概述和架构本文的核心方法旨在探明AVLLM中跨模态信息的存储位置，并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段：分析阶段（因果追踪）和应用阶段（自适应解码）。 ...