Stage-adaptive Token Selection for Efficient Omni-modal LLMs

📄 Stage-adaptive Token Selection for Efficient Omni-modal LLMs #多模态模型 #高效推理 #音频视觉 #大语言模型 ✅ 7.7/10 | 前25% | #多模态模型 | #高效推理 | #音频视觉 #大语言模型 | arxiv 学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Zijie Xin (Renmin University of China) 通讯作者:Xirong Li (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.) 作者列表:Zijie Xin (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.), Ruixiang Zhao (Renmin University of China), Tianyi Wang (WeChat Vision, Tencent Inc.), Fengyun Rao (WeChat Vision, Tencent Inc.), Jing Lyu (WeChat Vision, Tencent Inc.), Xirong Li (Renmin University of China) 注:论文脚注说明 Zijie Xin 和 Ruixiang Zhao 在腾讯实习期间完成了这项工作。 💡 毒舌点评 该工作的核心洞察——om-LLM中跨模态token的依赖性随深度衰减——清晰且有说服力,实验设计也足够扎实(跨模型、多基准、消融分析)。然而,其提出的“阶段自适应”策略在实现上高度依赖于精心调参的启发式规则(如层级划分、衰减函数),这既限制了方法的泛化性(需为每个新模型重新调参),也使得其“自适应”的声称略显薄弱,本质上更像是一种精心设计的、分阶段的启发式调度,而非真正能动态适应输入内容的机制。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 527 words

Probing Cross-modal Information Hubs in Audio-Visual LLMs

📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs #多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解 ✅ 6.5/10 | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | arxiv 学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Jihoo Jung(未说明所属机构) 通讯作者:未明确说明(论文未明确指出通讯作者) 作者列表:Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。 💡 毒舌点评 论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念,迁移到了更为复杂的音频-视觉大语言模型(AVLLM)中,并揭示了其功能异质性(单模态 vs. 跨模态),这是一个清晰且有价值的洞察。然而,其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据,这在很大程度上限制了其发现对于更通用、更开放的生成场景(如自由形式问答、长文本生成)的普适性和说服力。 📌 核心摘要 问题:当前对音频-视觉大语言模型(AVLLM)的内部工作机制,特别是跨模态信息如何在不同模态的token间流动和存储,缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。 方法核心:提出一个“单模态主导”框架,利用因果追踪技术,专门研究当模型输出主要由单一模态(如仅音频或仅视频)决定时,来自主导模态的信息是如何被编码到非主导模态的token中的。基于此,定义了“跨模态汇聚点”这一关键token子集,并进一步提出了一种无需训练的自适应解码方法(ASD)来缓解物体幻觉。 新意:相比于已有针对LLM/VLM的可解释性工作,本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造,而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景,并得出了关于“跨模态汇聚点”功能异质性的新洞察。 实验结果:在五个开源AVLLM(Qwen2.5-Omni, video-SALMONN系列)上的因果追踪实验表明,跨模态信息主要存储在跨模态汇聚点中(IE值显著高于随机token和对象token)。应用ASD方法后,在VGGSound-Animal等数据集上,模型的物体幻觉指标(如CHAIR的C_S, C_I)得到显著降低(例如,在video-SALMONN-o1上,C_S从37.74降至25.07)。 实际意义:为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案,具有实际应用价值,有助于提升AVLLM在真实世界场景中的输出可靠性。 主要局限:验证主要基于选择题式的分类任务,对更开放的生成场景验证不足;所提出的ASD方法引入了推理延迟(约3.7倍);部分模型(如video-SALMONN2+)基线幻觉已很低,方法提升空间有限。 🔗 开源详情 代码:https://github.com/kaistmm/crossmodal-hub 模型权重: Qwen2.5-Omni (7B/3B): 论文中引用了这些模型,其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B Qwen2.5-Omni-3B: https://huggingface.co/Qwen/Qwen2.5-Omni-3B video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式,其权重可通过以下官方 GitHub 仓库获取: video-SALMONN 系列: https://github.com/TMElyralab/Video-SALMONN (注:具体模型权重文件可在上述仓库的 weights 目录或通过 HuggingFace 的关联仓库下载,论文未提供直接链接) 数据集: VGGSound: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集,可通过其官方网站获取:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集,可通过官方网站获取:https://research.google.com/audioset/ VGGSounder: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文,但论文未提供直接下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 论文附录(Appendix)提供了详尽的复现细节,包括: Sink Token 定义与选择:详细说明了如何识别全局 sink token,包括使用的维度、阈值等(见附录 A.1)。 数据集构建细节:提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程(见附录 A.2)。 算法细节:给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置(见附录 A.3)。 基线方法适配:说明了如何将 PAI 和 VCD 方法适配到音视频设置(见附录 A.4)。 这些信息足以支持研究复现,但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。 论文中引用的开源项目: Qwen2.5-Omni / Qwen3-Omni: 由阿里云通义千问团队发布的多模态大语言模型。 仓库:https://github.com/QwenLM/Qwen2.5-Omni video-SALMONN / video-SALMONN2+: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。 仓库:https://github.com/TMElyralab/Video-SALMONN VGGSound: 音频-视觉分类数据集。 主页:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/ AudioSet: 音频事件分类数据集。 主页:https://research.google.com/audioset/ DETR (DEtection TRansformer): 用于目标检测的 Transformer 模型。 仓库:https://github.com/facebookresearch/detr Sound Event Detection Model (引用为 (Wu et al., 2025)): 用于识别音频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。 Image Segmentation Model (引用为 (Ravi et al., 2025)): 用于识别视频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。 LLaMA: 作为一些早期 AVLLM 的基础模型被引用。 仓库:https://github.com/meta-llama/llama VGGSounder: 对 VGGSound 进行重新标注的评估集,用于构建更全面的 ground-truth。 论文引用来源为 (Zverev et al., 2025),但未提供直接链接。 🏗️ 方法概述和架构 本文的核心方法旨在探明AVLLM中跨模态信息的存储位置,并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段:分析阶段(因果追踪)和应用阶段(自适应解码)。 ...

2026-05-12 · 更新于 2026-06-12 · 4 min · 724 words