<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>因果追踪 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E5%9B%A0%E6%9E%9C%E8%BF%BD%E8%B8%AA/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 12 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E5%9B%A0%E6%9E%9C%E8%BF%BD%E8%B8%AA/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Probing Cross-modal Information Hubs in Audio-Visual LLMs</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-12-probing-cross-modal-information-hubs-in-audio/</link>
      <pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-12-probing-cross-modal-information-hubs-in-audio/</guid>
      <description>&lt;h1 id=&#34;-probing-cross-modal-information-hubs-in-audio-visual-llms&#34;&gt;📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs&lt;/h1&gt;
&lt;p&gt;#多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;6.5/10&lt;/strong&gt; | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | &lt;a href=&#34;https://arxiv.org/abs/2605.10815v1&#34;&gt;arxiv&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Jihoo Jung（未说明所属机构）&lt;/li&gt;
&lt;li&gt;通讯作者：未明确说明（论文未明确指出通讯作者）&lt;/li&gt;
&lt;li&gt;作者列表：Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念，迁移到了更为复杂的音频-视觉大语言模型（AVLLM）中，并揭示了其功能异质性（单模态 vs. 跨模态），这是一个清晰且有价值的洞察。然而，其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据，这在很大程度上限制了其发现对于更通用、更开放的生成场景（如自由形式问答、长文本生成）的普适性和说服力。&lt;/p&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;问题&lt;/strong&gt;：当前对音频-视觉大语言模型（AVLLM）的内部工作机制，特别是跨模态信息如何在不同模态的token间流动和存储，缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;方法核心&lt;/strong&gt;：提出一个“单模态主导”框架，利用因果追踪技术，专门研究当模型输出主要由单一模态（如仅音频或仅视频）决定时，来自主导模态的信息是如何被编码到非主导模态的token中的。基于此，定义了“跨模态汇聚点”这一关键token子集，并进一步提出了一种无需训练的自适应解码方法（ASD）来缓解物体幻觉。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;新意&lt;/strong&gt;：相比于已有针对LLM/VLM的可解释性工作，本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造，而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景，并得出了关于“跨模态汇聚点”功能异质性的新洞察。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实验结果&lt;/strong&gt;：在五个开源AVLLM（Qwen2.5-Omni, video-SALMONN系列）上的因果追踪实验表明，跨模态信息主要存储在跨模态汇聚点中（IE值显著高于随机token和对象token）。应用ASD方法后，在VGGSound-Animal等数据集上，模型的物体幻觉指标（如CHAIR的C_S, C_I）得到显著降低（例如，在video-SALMONN-o1上，C_S从37.74降至25.07）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实际意义&lt;/strong&gt;：为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案，具有实际应用价值，有助于提升AVLLM在真实世界场景中的输出可靠性。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;主要局限&lt;/strong&gt;：验证主要基于选择题式的分类任务，对更开放的生成场景验证不足；所提出的ASD方法引入了推理延迟（约3.7倍）；部分模型（如video-SALMONN2+）基线幻觉已很低，方法提升空间有限。&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;代码&lt;/strong&gt;：https://github.com/kaistmm/crossmodal-hub&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型权重&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;Qwen2.5-Omni (7B/3B): 论文中引用了这些模型，其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为：
&lt;ul&gt;
&lt;li&gt;Qwen2.5-Omni-7B: &lt;a href=&#34;https://huggingface.co/Qwen/Qwen2.5-Omni-7B&#34;&gt;https://huggingface.co/Qwen/Qwen2.5-Omni-7B&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Qwen2.5-Omni-3B: &lt;a href=&#34;https://huggingface.co/Qwen/Qwen2.5-Omni-3B&#34;&gt;https://huggingface.co/Qwen/Qwen2.5-Omni-3B&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式，其权重可通过以下官方 GitHub 仓库获取：
&lt;ul&gt;
&lt;li&gt;video-SALMONN 系列: &lt;a href=&#34;https://github.com/TMElyralab/Video-SALMONN&#34;&gt;https://github.com/TMElyralab/Video-SALMONN&lt;/a&gt;
(注：具体模型权重文件可在上述仓库的 &lt;code&gt;weights&lt;/code&gt; 目录或通过 HuggingFace 的关联仓库下载，论文未提供直接链接)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据集&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;VGGSound&lt;/strong&gt;: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集，可通过其官方网站获取：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AudioSet&lt;/strong&gt;: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集，可通过官方网站获取：https://research.google.com/audioset/&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VGGSounder&lt;/strong&gt;: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文，但论文未提供直接下载链接。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Demo&lt;/strong&gt;：论文中未提及在线演示链接。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;复现材料&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;论文附录（Appendix）提供了详尽的复现细节，包括：
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Sink Token 定义与选择&lt;/strong&gt;：详细说明了如何识别全局 sink token，包括使用的维度、阈值等（见附录 A.1）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据集构建细节&lt;/strong&gt;：提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程（见附录 A.2）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算法细节&lt;/strong&gt;：给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置（见附录 A.3）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;基线方法适配&lt;/strong&gt;：说明了如何将 PAI 和 VCD 方法适配到音视频设置（见附录 A.4）。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;这些信息足以支持研究复现，但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;论文中引用的开源项目&lt;/strong&gt;：
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Qwen2.5-Omni / Qwen3-Omni&lt;/strong&gt;: 由阿里云通义千问团队发布的多模态大语言模型。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/QwenLM/Qwen2.5-Omni&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;video-SALMONN / video-SALMONN2+&lt;/strong&gt;: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/TMElyralab/Video-SALMONN&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VGGSound&lt;/strong&gt;: 音频-视觉分类数据集。
&lt;ul&gt;
&lt;li&gt;主页：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AudioSet&lt;/strong&gt;: 音频事件分类数据集。
&lt;ul&gt;
&lt;li&gt;主页：https://research.google.com/audioset/&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;DETR (DEtection TRansformer)&lt;/strong&gt;: 用于目标检测的 Transformer 模型。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/facebookresearch/detr&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sound Event Detection Model (引用为 (Wu et al., 2025))&lt;/strong&gt;: 用于识别音频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Image Segmentation Model (引用为 (Ravi et al., 2025))&lt;/strong&gt;: 用于识别视频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LLaMA&lt;/strong&gt;: 作为一些早期 AVLLM 的基础模型被引用。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/meta-llama/llama&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VGGSounder&lt;/strong&gt;: 对 VGGSound 进行重新标注的评估集，用于构建更全面的 ground-truth。
&lt;ul&gt;
&lt;li&gt;论文引用来源为 (Zverev et al., 2025)，但未提供直接链接。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-方法概述和架构&#34;&gt;🏗️ 方法概述和架构&lt;/h3&gt;
&lt;p&gt;本文的核心方法旨在探明AVLLM中跨模态信息的存储位置，并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段：&lt;strong&gt;分析阶段（因果追踪）&lt;strong&gt;和&lt;/strong&gt;应用阶段（自适应解码）&lt;/strong&gt;。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-probing-cross-modal-information-hubs-in-audio-visual-llms">📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs</h1>
<p>#多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解</p>
<p>✅ <strong>6.5/10</strong> | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | <a href="https://arxiv.org/abs/2605.10815v1">arxiv</a></p>
<p>学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Jihoo Jung（未说明所属机构）</li>
<li>通讯作者：未明确说明（论文未明确指出通讯作者）</li>
<li>作者列表：Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念，迁移到了更为复杂的音频-视觉大语言模型（AVLLM）中，并揭示了其功能异质性（单模态 vs. 跨模态），这是一个清晰且有价值的洞察。然而，其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据，这在很大程度上限制了其发现对于更通用、更开放的生成场景（如自由形式问答、长文本生成）的普适性和说服力。</p>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li><strong>问题</strong>：当前对音频-视觉大语言模型（AVLLM）的内部工作机制，特别是跨模态信息如何在不同模态的token间流动和存储，缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。</li>
<li><strong>方法核心</strong>：提出一个“单模态主导”框架，利用因果追踪技术，专门研究当模型输出主要由单一模态（如仅音频或仅视频）决定时，来自主导模态的信息是如何被编码到非主导模态的token中的。基于此，定义了“跨模态汇聚点”这一关键token子集，并进一步提出了一种无需训练的自适应解码方法（ASD）来缓解物体幻觉。</li>
<li><strong>新意</strong>：相比于已有针对LLM/VLM的可解释性工作，本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造，而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景，并得出了关于“跨模态汇聚点”功能异质性的新洞察。</li>
<li><strong>实验结果</strong>：在五个开源AVLLM（Qwen2.5-Omni, video-SALMONN系列）上的因果追踪实验表明，跨模态信息主要存储在跨模态汇聚点中（IE值显著高于随机token和对象token）。应用ASD方法后，在VGGSound-Animal等数据集上，模型的物体幻觉指标（如CHAIR的C_S, C_I）得到显著降低（例如，在video-SALMONN-o1上，C_S从37.74降至25.07）。</li>
<li><strong>实际意义</strong>：为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案，具有实际应用价值，有助于提升AVLLM在真实世界场景中的输出可靠性。</li>
<li><strong>主要局限</strong>：验证主要基于选择题式的分类任务，对更开放的生成场景验证不足；所提出的ASD方法引入了推理延迟（约3.7倍）；部分模型（如video-SALMONN2+）基线幻觉已很低，方法提升空间有限。</li>
</ol>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li><strong>代码</strong>：https://github.com/kaistmm/crossmodal-hub</li>
<li><strong>模型权重</strong>：
<ul>
<li>Qwen2.5-Omni (7B/3B): 论文中引用了这些模型，其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为：
<ul>
<li>Qwen2.5-Omni-7B: <a href="https://huggingface.co/Qwen/Qwen2.5-Omni-7B">https://huggingface.co/Qwen/Qwen2.5-Omni-7B</a></li>
<li>Qwen2.5-Omni-3B: <a href="https://huggingface.co/Qwen/Qwen2.5-Omni-3B">https://huggingface.co/Qwen/Qwen2.5-Omni-3B</a></li>
</ul>
</li>
<li>video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式，其权重可通过以下官方 GitHub 仓库获取：
<ul>
<li>video-SALMONN 系列: <a href="https://github.com/TMElyralab/Video-SALMONN">https://github.com/TMElyralab/Video-SALMONN</a>
(注：具体模型权重文件可在上述仓库的 <code>weights</code> 目录或通过 HuggingFace 的关联仓库下载，论文未提供直接链接)</li>
</ul>
</li>
</ul>
</li>
<li><strong>数据集</strong>：
<ul>
<li><strong>VGGSound</strong>: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集，可通过其官方网站获取：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/</li>
<li><strong>AudioSet</strong>: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集，可通过官方网站获取：https://research.google.com/audioset/</li>
<li><strong>VGGSounder</strong>: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文，但论文未提供直接下载链接。</li>
</ul>
</li>
<li><strong>Demo</strong>：论文中未提及在线演示链接。</li>
<li><strong>复现材料</strong>：
<ul>
<li>论文附录（Appendix）提供了详尽的复现细节，包括：
<ul>
<li><strong>Sink Token 定义与选择</strong>：详细说明了如何识别全局 sink token，包括使用的维度、阈值等（见附录 A.1）。</li>
<li><strong>数据集构建细节</strong>：提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程（见附录 A.2）。</li>
<li><strong>算法细节</strong>：给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置（见附录 A.3）。</li>
<li><strong>基线方法适配</strong>：说明了如何将 PAI 和 VCD 方法适配到音视频设置（见附录 A.4）。</li>
</ul>
</li>
<li>这些信息足以支持研究复现，但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。</li>
</ul>
</li>
<li><strong>论文中引用的开源项目</strong>：
<ol>
<li><strong>Qwen2.5-Omni / Qwen3-Omni</strong>: 由阿里云通义千问团队发布的多模态大语言模型。
<ul>
<li>仓库：https://github.com/QwenLM/Qwen2.5-Omni</li>
</ul>
</li>
<li><strong>video-SALMONN / video-SALMONN2+</strong>: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。
<ul>
<li>仓库：https://github.com/TMElyralab/Video-SALMONN</li>
</ul>
</li>
<li><strong>VGGSound</strong>: 音频-视觉分类数据集。
<ul>
<li>主页：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/</li>
</ul>
</li>
<li><strong>AudioSet</strong>: 音频事件分类数据集。
<ul>
<li>主页：https://research.google.com/audioset/</li>
</ul>
</li>
<li><strong>DETR (DEtection TRansformer)</strong>: 用于目标检测的 Transformer 模型。
<ul>
<li>仓库：https://github.com/facebookresearch/detr</li>
</ul>
</li>
<li><strong>Sound Event Detection Model (引用为 (Wu et al., 2025))</strong>: 用于识别音频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。</li>
<li><strong>Image Segmentation Model (引用为 (Ravi et al., 2025))</strong>: 用于识别视频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。</li>
<li><strong>LLaMA</strong>: 作为一些早期 AVLLM 的基础模型被引用。
<ul>
<li>仓库：https://github.com/meta-llama/llama</li>
</ul>
</li>
<li><strong>VGGSounder</strong>: 对 VGGSound 进行重新标注的评估集，用于构建更全面的 ground-truth。
<ul>
<li>论文引用来源为 (Zverev et al., 2025)，但未提供直接链接。</li>
</ul>
</li>
</ol>
</li>
</ul>
<h3 id="-方法概述和架构">🏗️ 方法概述和架构</h3>
<p>本文的核心方法旨在探明AVLLM中跨模态信息的存储位置，并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段：<strong>分析阶段（因果追踪）<strong>和</strong>应用阶段（自适应解码）</strong>。</p>
<p><strong>1. 分析阶段：单模态主导框架下的因果追踪</strong></p>
<ul>
<li><strong>整体流程</strong>：为了追踪跨模态信息流，研究者首先构建一个“单模态主导”的场景。例如，在“音频主导”场景中，选择音频线索明确而视频线索模糊的样本，使得模型仅凭音频就能做出正确预测。然后，通过三次前向传播（干净运行、破坏运行、修复运行）来量化特定token子集所携带的跨模态信息量。</li>
<li><strong>核心组件</strong>：
<ul>
<li><strong>单模态主导框架</strong>：这是进行有效追踪的前提条件。论文定义了“音频主导”和“视频主导”两种设置（公式1和2），通过对比模型在多模态输入（$\hat{y}<em>{av}$）、单模态输入（$\hat{y}</em>{a}$, $\hat{y}_{v}$）下的预测结果来筛选符合条件的样本。这确保了研究的焦点是单一模态向另一模态传递的信息。</li>
<li><strong>因果追踪实验</strong>：这是量化信息的核心技术。其流程如图2所示。<strong>（1）干净运行</strong>：输入完整的音视频信息，获得正确预测。<strong>（2）破坏运行</strong>：在进入编码器前，将主导模态（如音频）的输入token表示清零，强迫模型仅依赖非主导模态（视频），通常会导致预测错误。<strong>（3）修复运行</strong>：从干净运行中取出非主导模态（视频）的隐藏状态，替换到破坏运行的对应位置，观察预测的恢复情况。<strong>关键设计选择与动机</strong>：论文选择在自注意力层<strong>之前</strong>进行隐藏状态替换（patching），而非之后。其动机是，替换前的状态可以被后续的自注意力机制“看到”，从而将恢复的信息传播给文本token，更有效地影响最终输出。这一设计选择得到了控制实验的验证（附录B.1.2，表8），在该实验中，直接修复主导模态token以获得近乎完美的预测恢复，结果显示“在SA前patching”的IE值远高于“在SA后”或“在MLP后”。</li>
<li><strong>信息量化指标</strong>：定义了两个间接效应（Indirect Effect）指标（公式3和4）：$IE_{clean}(S)$衡量修复子集$S$后，正确预测概率的恢复程度；$IE_{corrupt}(S)$衡量其压制错误预测的能力。较高的IE值表明子集$S$编码了丰富的跨模态信息。</li>
<li><strong>待验证的token子集</strong>：包括：1) 所有非主导模态token（上界）；2) 对象token（由外部模型识别）；3) 汇聚点token（通过模型内部激活筛选，特别定义了跨层稳定的“全局汇聚点”）；4) 随机token（基线）。</li>
</ul>
</li>
<li><strong>数据流与交互</strong>：输入音视频数据 -&gt; 编码器生成token -&gt; 在Transformer块中进行追踪实验（替换特定token的隐藏状态）-&gt; 计算输出概率变化（IE值）-&gt; 分析哪些token子集（对象、汇聚点）的IE值最高，从而定位信息枢纽。</li>
</ul>
<p><strong>2. 发现与深化：跨模态汇聚点的功能异质性</strong></p>
<ul>
<li>在确认汇聚点是关键信息枢纽后，论文进一步分析汇聚点的内部差异。引入“模态主导分数”（MDS，公式5）来量化每个汇聚点token从视频和音频模态分别接收到的平均注意力权重。MDS值的分布（如图3所示）揭示，即使在同一类汇聚点内，也存在显著差异：有些汇聚点主要接收自身模态的注意力（单模态汇聚点），而另一些则主要接收互补模态的注意力（跨模态汇聚点）。</li>
<li><strong>关键设计选择</strong>：基于MDS将汇聚点等分为“单模态汇聚点”和“跨模态汇聚点”两组，并分别进行因果追踪。结果显示（表2），修复“跨模态汇聚点”能获得比修复“单模态汇聚点”高得多的IE值，且其效果与修复全部汇聚点相当。这证明了跨模态汇聚点才是真正的跨模态信息载体。</li>
</ul>
<p><strong>3. 应用阶段：自适应汇聚点引导解码（ASD）</strong></p>
<ul>
<li><strong>整体流程</strong>：这是一个无需训练的推理时干预方法，旨在通过调整注意力分配来减少因模态冲突导致的物体幻觉。它在解码的每一步动态调整模型对“跨模态汇聚点”和“单模态汇聚点”的关注度。</li>
<li><strong>核心组件</strong>：
<ul>
<li><strong>预识别与分类</strong>：首先，使用MDS对全局汇聚点进行分类，得到跨模态汇聚点集合($\mathcal{S}<em>{cross}$)和单模态汇聚点集合($\mathcal{S}</em>{uni}$)。</li>
<li><strong>双通路前向传播</strong>：在每个解码步$t$，执行两次并行的前向传播：<strong>原始通路</strong>和<strong>校准通路</strong>。在校准通路中，应用注意力调制公式（公式6和7）：增大对$\mathcal{S}<em>{cross}$的注意力权重，减小对$\mathcal{S}</em>{uni}$的注意力权重，调制强度由超参数$\alpha$控制（实验中固定为0.6）。</li>
<li><strong>自适应引导系数</strong>：为避免固定调制强度可能带来的副作用，引入了自适应的引导系数$\gamma_t$。其计算基于原始通路中注意力分配的风险（即对单模态汇聚点的注意力占比，公式9）。具体而言，基础引导系数$\gamma_{t}^{\text{base}}$定义为单模态汇聚点平均注意力占总汇聚点注意力的比例。随后，通过阈值门控（当基础系数低于阈值$\tau$或文本注意力质量$r_t$高于阈值$\rho$时，$\gamma_t$置零）和动量平滑（公式16）得到最终的$\gamma_t$。当检测到模型可能过度关注易引发幻觉的单模态汇聚点时，$\gamma_t$增大，使得生成更多地依赖经过校准的、更倾向于跨模态信息的分布（公式8）。</li>
</ul>
</li>
<li><strong>数据流与交互</strong>：输入音视频及前文-&gt; 原始通路生成原始token概率分布$P_{orig}$；同时校准通路生成调整后的概率分布$P_{cali}$ -&gt; 根据自适应系数$\gamma_t$对两个分布进行加权组合，得到最终的采样分布$\tilde{P}$ -&gt; 从$\tilde{P}$中采样下一个token。</li>
</ul>
<p><img alt="Figure 2: Causal Tracing under the Unimodal Dominance Framework" loading="lazy" src="https://arxiv.org/html/2605.10815v1/x2.png">
<strong>图2说明</strong>：该图清晰地展示了因果追踪的三步流程。以“音频主导”为例：a) 干净运行使用完整输入；b) 破坏运行将音频输入清零，模型仅靠视频输入预测（易出错）；c) 修复运行将干净运行中的视频token隐藏状态替换回破坏运行的对应位置，观察预测的恢复。这一框架是定位跨模态信息流的实验基础。</p>
<p><img alt="Figure 3: Layer-wise MDS of audio and video sink tokens" loading="lazy" src="https://arxiv.org/html/2605.10815v1/fig/mds.png">
<strong>图3说明</strong>：该图可视化了Qwen2.5-Omni(7B)中视频和音频汇聚点token的模态主导分数（MDS）。MDS为正表示视频注意力占优，为负表示音频注意力占优。图中可见，无论是在音频汇聚点还是视频汇聚点内部，MDS值分布广泛，存在MDS接近0（平衡）和MDS绝对值较大（偏向某一模态）的token，直观证明了汇聚点功能异质性的存在。</p>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li><strong>提出“单模态主导”因果追踪框架</strong>：针对AVLLM双向信息流的复杂性，创新性地设计了基于“单模态主导”条件的因果追踪实验范式。该框架能有效隔离并测量从一个模态流向另一个模态的信息，是分析AVLLM跨模态交互的有效工具。</li>
<li><strong>揭示“跨模态汇聚点”的功能异质性</strong>：超越了“汇聚点存储全局信息”的普遍认知，首次在AVLLM中证明汇聚点并非同质。通过MDS指标和对比实验，明确区分并证实了“跨模态汇聚点”才是承载跨模态信息的核心功能子集，深化了对注意力机制在多模态模型中作用的理解。</li>
<li><strong>提出基于可解释性发现的无训练幻觉缓解方法（ASD）</strong>：将机制分析的发现直接转化为实用工具。ASD方法通过动态调整对“跨模态汇聚点”和“单模态汇聚点”的注意力，针对性地缓解因模态冲突导致的物体幻觉，实现了“理解-改进”的闭环，方法简单且效果显著。</li>
<li><strong>对AVLLM内部机制的系统性可解释性研究</strong>：在文本和视觉语言模型之外，为理解更复杂的音频-视觉语言模型的内部工作机制提供了系统性的实证研究范例，填补了该领域的部分空白。</li>
</ol>
<h3 id="-实验结果">📊 实验结果</h3>
<p>论文的实验主要分为两部分：一是用于定位信息枢纽的因果追踪实验，二是验证所提幻觉缓解方法ASD的效果实验。</p>
<p><strong>1. 因果追踪实验（表1，表2）</strong>
在五个AVLLM上，针对“音频主导”和“视频主导”场景，比较了修复不同token子集后的间接效应（IE）。</p>
<p><strong>表1：不同token集合的补丁结果</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模态</th>
          <th style="text-align: left">补丁策略</th>
          <th style="text-align: left">Qwen2.5-Omni(7B)</th>
          <th style="text-align: left">Qwen2.5-Omni(3B)</th>
          <th style="text-align: left">video-SALMONN-o1(7B)</th>
          <th style="text-align: left">video-SALMONN2+(7B)</th>
          <th style="text-align: left">video-SALMONN2+(3B)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
          <td style="text-align: left">#Tokens</td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>音频主导</strong></td>
          <td style="text-align: left">All</td>
          <td style="text-align: left">9.61</td>
          <td style="text-align: left">5.28</td>
          <td style="text-align: left">1440</td>
          <td style="text-align: left">7.83</td>
          <td style="text-align: left">3.48</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Object</td>
          <td style="text-align: left">5.04</td>
          <td style="text-align: left">2.44</td>
          <td style="text-align: left">613</td>
          <td style="text-align: left">3.53</td>
          <td style="text-align: left">1.12</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">6.24</td>
          <td style="text-align: left">2.94</td>
          <td style="text-align: left">603</td>
          <td style="text-align: left">6.99</td>
          <td style="text-align: left">2.70</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.31</td>
          <td style="text-align: left">1.94</td>
          <td style="text-align: left">362</td>
          <td style="text-align: left">6.36</td>
          <td style="text-align: left">2.08</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.26</td>
          <td style="text-align: left">1.23</td>
          <td style="text-align: left">256</td>
          <td style="text-align: left">5.50</td>
          <td style="text-align: left">1.64</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=2)</td>
          <td style="text-align: left">4.24</td>
          <td style="text-align: left">2.37</td>
          <td style="text-align: left">603</td>
          <td style="text-align: left">4.05</td>
          <td style="text-align: left">1.20</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=3)</td>
          <td style="text-align: left">2.97</td>
          <td style="text-align: left">1.55</td>
          <td style="text-align: left">362</td>
          <td style="text-align: left">2.71</td>
          <td style="text-align: left">0.72</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=4)</td>
          <td style="text-align: left">1.93</td>
          <td style="text-align: left">0.87</td>
          <td style="text-align: left">256</td>
          <td style="text-align: left">1.87</td>
          <td style="text-align: left">0.65</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>视频主导</strong></td>
          <td style="text-align: left">All</td>
          <td style="text-align: left">8.21</td>
          <td style="text-align: left">13.63</td>
          <td style="text-align: left">249</td>
          <td style="text-align: left">2.43</td>
          <td style="text-align: left">8.85</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Object</td>
          <td style="text-align: left">4.97</td>
          <td style="text-align: left">8.44</td>
          <td style="text-align: left">149</td>
          <td style="text-align: left">1.59</td>
          <td style="text-align: left">6.41</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">5.47</td>
          <td style="text-align: left">8.54</td>
          <td style="text-align: left">144</td>
          <td style="text-align: left">2.07</td>
          <td style="text-align: left">6.87</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.40</td>
          <td style="text-align: left">7.12</td>
          <td style="text-align: left">86</td>
          <td style="text-align: left">1.62</td>
          <td style="text-align: left">5.88</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.10</td>
          <td style="text-align: left">6.28</td>
          <td style="text-align: left">60</td>
          <td style="text-align: left">1.10</td>
          <td style="text-align: left">4.78</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=2)</td>
          <td style="text-align: left">4.56</td>
          <td style="text-align: left">6.83</td>
          <td style="text-align: left">144</td>
          <td style="text-align: left">1.22</td>
          <td style="text-align: left">5.29</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=3)</td>
          <td style="text-align: left">2.70</td>
          <td style="text-align: left">3.62</td>
          <td style="text-align: left">86</td>
          <td style="text-align: left">0.94</td>
          <td style="text-align: left">4.34</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=4)</td>
          <td style="text-align: left">1.86</td>
          <td style="text-align: left">2.30</td>
          <td style="text-align: left">60</td>
          <td style="text-align: left">0.58</td>
          <td style="text-align: left">3.46</td>
      </tr>
  </tbody>
</table>
<ul>
<li><strong>关键结论</strong>：表1显示，在大多数模型和场景下，修复汇聚点token（尤其是N=2时）的IE值接近甚至超过对象token和随机token，表明跨模态信息主要编码在汇聚点中。</li>
</ul>
<p><strong>表2：单模态和跨模态token集合的补丁结果</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模态</th>
          <th style="text-align: left">补丁策略</th>
          <th style="text-align: left">Qwen2.5-Omni(7B)</th>
          <th style="text-align: left">Qwen2.5-Omni(3B)</th>
          <th style="text-align: left">video-SALMONN-o1(7B)</th>
          <th style="text-align: left">video-SALMONN2+(7B)</th>
          <th style="text-align: left">video-SALMONN2+(3B)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
          <td style="text-align: left">#Tokens</td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>音频主导</strong></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">6.24</td>
          <td style="text-align: left">2.94</td>
          <td style="text-align: left">603</td>
          <td style="text-align: left">6.99</td>
          <td style="text-align: left">2.70</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=2)</td>
          <td style="text-align: left">0.65</td>
          <td style="text-align: left">0.23</td>
          <td style="text-align: left">301</td>
          <td style="text-align: left">0.89</td>
          <td style="text-align: left">0.31</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=2)</strong></td>
          <td style="text-align: left"><strong>5.58</strong></td>
          <td style="text-align: left"><strong>2.95</strong></td>
          <td style="text-align: left"><strong>301</strong></td>
          <td style="text-align: left"><strong>6.57</strong></td>
          <td style="text-align: left"><strong>2.33</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.31</td>
          <td style="text-align: left">1.94</td>
          <td style="text-align: left">362</td>
          <td style="text-align: left">6.36</td>
          <td style="text-align: left">2.08</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=3)</td>
          <td style="text-align: left">0.92</td>
          <td style="text-align: left">0.39</td>
          <td style="text-align: left">181</td>
          <td style="text-align: left">1.02</td>
          <td style="text-align: left">0.18</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=3)</strong></td>
          <td style="text-align: left"><strong>3.54</strong></td>
          <td style="text-align: left"><strong>1.52</strong></td>
          <td style="text-align: left"><strong>181</strong></td>
          <td style="text-align: left"><strong>5.73</strong></td>
          <td style="text-align: left"><strong>1.85</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.26</td>
          <td style="text-align: left">1.23</td>
          <td style="text-align: left">256</td>
          <td style="text-align: left">5.50</td>
          <td style="text-align: left">1.64</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=4)</td>
          <td style="text-align: left">0.71</td>
          <td style="text-align: left">0.36</td>
          <td style="text-align: left">128</td>
          <td style="text-align: left">1.07</td>
          <td style="text-align: left">0.32</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=4)</strong></td>
          <td style="text-align: left"><strong>2.70</strong></td>
          <td style="text-align: left"><strong>0.99</strong></td>
          <td style="text-align: left"><strong>128</strong></td>
          <td style="text-align: left"><strong>4.90</strong></td>
          <td style="text-align: left"><strong>1.28</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>视频主导</strong></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">5.47</td>
          <td style="text-align: left">8.54</td>
          <td style="text-align: left">144</td>
          <td style="text-align: left">2.07</td>
          <td style="text-align: left">6.87</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=2)</td>
          <td style="text-align: left">1.93</td>
          <td style="text-align: left">3.54</td>
          <td style="text-align: left">72</td>
          <td style="text-align: left">0.35</td>
          <td style="text-align: left">3.43</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=2)</strong></td>
          <td style="text-align: left"><strong>3.03</strong></td>
          <td style="text-align: left"><strong>4.53</strong></td>
          <td style="text-align: left"><strong>72</strong></td>
          <td style="text-align: left"><strong>1.25</strong></td>
          <td style="text-align: left"><strong>4.48</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.40</td>
          <td style="text-align: left">7.12</td>
          <td style="text-align: left">86</td>
          <td style="text-align: left">1.62</td>
          <td style="text-align: left">5.88</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=3)</td>
          <td style="text-align: left">1.72</td>
          <td style="text-align: left">3.19</td>
          <td style="text-align: left">43</td>
          <td style="text-align: left">0.31</td>
          <td style="text-align: left">3.15</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=3)</strong></td>
          <td style="text-align: left"><strong>2.15</strong></td>
          <td style="text-align: left"><strong>3.70</strong></td>
          <td style="text-align: left"><strong>43</strong></td>
          <td style="text-align: left"><strong>1.01</strong></td>
          <td style="text-align: left"><strong>4.11</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.10</td>
          <td style="text-align: left">6.28</td>
          <td style="text-align: left">60</td>
          <td style="text-align: left">1.10</td>
          <td style="text-align: left">4.78</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=4)</td>
          <td style="text-align: left">1.27</td>
          <td style="text-align: left">2.80</td>
          <td style="text-align: left">30</td>
          <td style="text-align: left">0.24</td>
          <td style="text-align: left">2.77</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=4)</strong></td>
          <td style="text-align: left"><strong>1.45</strong></td>
          <td style="text-align: left"><strong>3.02</strong></td>
          <td style="text-align: left"><strong>30</strong></td>
          <td style="text-align: left"><strong>0.63</strong></td>
          <td style="text-align: left"><strong>3.57</strong></td>
      </tr>
  </tbody>
</table>
<ul>
<li><strong>关键结论</strong>：表2清晰地显示，修复“跨模态汇聚点”带来的IE值提升远高于修复“单模态汇聚点”，且效果与修复所有汇聚点相当，证明了跨模态汇聚点的核心作用。</li>
</ul>
<p><strong>2. 幻觉缓解实验（表3，图6）</strong>
在Qwen2.5-Omni(7B)和video-SALMONN-o1(7B)上，评估ASD方法在减少物体幻觉方面的效果。</p>
<p><strong>表3：ASD的定量结果</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">数据集</th>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Qwen2.5-Omni(7B)</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left">video-SALMONN-o1 (7B)</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">ALOHa ↑</td>
          <td style="text-align: left">C_S ↓</td>
          <td style="text-align: left">C_I ↓</td>
          <td style="text-align: left">F1 ↑</td>
          <td style="text-align: left">ALOHa ↑</td>
          <td style="text-align: left">C_S ↓</td>
          <td style="text-align: left">C_I ↓</td>
          <td style="text-align: left">F1 ↑</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>VGGSound-Animal</strong></td>
          <td style="text-align: left">Vanilla</td>
          <td style="text-align: left">40.71</td>
          <td style="text-align: left">48.21</td>
          <td style="text-align: left">37.13</td>
          <td style="text-align: left">55.24</td>
          <td style="text-align: left">36.21</td>
          <td style="text-align: left">37.74</td>
          <td style="text-align: left">32.09</td>
          <td style="text-align: left">53.68</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PAI</td>
          <td style="text-align: left">39.52</td>
          <td style="text-align: left">51.24</td>
          <td style="text-align: left">38.11</td>
          <td style="text-align: left">55.11</td>
          <td style="text-align: left">36.99</td>
          <td style="text-align: left">35.26</td>
          <td style="text-align: left">31.18</td>
          <td style="text-align: left">53.16</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">VCD</td>
          <td style="text-align: left">40.27</td>
          <td style="text-align: left">51.52</td>
          <td style="text-align: left">41.28</td>
          <td style="text-align: left">52.43</td>
          <td style="text-align: left">36.40</td>
          <td style="text-align: left">39.39</td>
          <td style="text-align: left">33.40</td>
          <td style="text-align: left">53.37</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>ASD</strong></td>
          <td style="text-align: left"><strong>42.77</strong></td>
          <td style="text-align: left"><strong>36.91</strong></td>
          <td style="text-align: left"><strong>34.15</strong></td>
          <td style="text-align: left"><strong>52.44</strong></td>
          <td style="text-align: left"><strong>43.29</strong></td>
          <td style="text-align: left"><strong>25.07</strong></td>
          <td style="text-align: left"><strong>25.71</strong></td>
          <td style="text-align: left"><strong>50.89</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>VGGSound-All</strong></td>
          <td style="text-align: left">Vanilla</td>
          <td style="text-align: left">35.02</td>
          <td style="text-align: left">30.70</td>
          <td style="text-align: left">20.67</td>
          <td style="text-align: left">58.69</td>
          <td style="text-align: left">32.74</td>
          <td style="text-align: left">30.63</td>
          <td style="text-align: left">22.39</td>
          <td style="text-align: left">53.40</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PAI</td>
          <td style="text-align: left">34.68</td>
          <td style="text-align: left">32.21</td>
          <td style="text-align: left">21.52</td>
          <td style="text-align: left">58.47</td>
          <td style="text-align: left">32.44</td>
          <td style="text-align: left">29.29</td>
          <td style="text-align: left">22.01</td>
          <td style="text-align: left">53.15</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">VCD</td>
          <td style="text-align: left">34.60</td>
          <td style="text-align: left">32.63</td>
          <td style="text-align: left">22.36</td>
          <td style="text-align: left">57.09</td>
          <td style="text-align: left">30.28</td>
          <td style="text-align: left">30.76</td>
          <td style="text-align: left">24.31</td>
          <td style="text-align: left">50.02</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>ASD</strong></td>
          <td style="text-align: left"><strong>38.89</strong></td>
          <td style="text-align: left"><strong>29.65</strong></td>
          <td style="text-align: left"><strong>21.74</strong></td>
          <td style="text-align: left"><strong>55.81</strong></td>
          <td style="text-align: left"><strong>36.63</strong></td>
          <td style="text-align: left"><strong>21.11</strong></td>
          <td style="text-align: left"><strong>18.42</strong></td>
          <td style="text-align: left"><strong>50.10</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>AudioSet</strong></td>
          <td style="text-align: left">Vanilla</td>
          <td style="text-align: left">38.24</td>
          <td style="text-align: left">8.92</td>
          <td style="text-align: left">10.93</td>
          <td style="text-align: left">69.73</td>
          <td style="text-align: left">36.81</td>
          <td style="text-align: left">11.39</td>
          <td style="text-align: left">14.91</td>
          <td style="text-align: left">67.27</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PAI</td>
          <td style="text-align: left">36.94</td>
          <td style="text-align: left">11.84</td>
          <td style="text-align: left">13.09</td>
          <td style="text-align: left">73.22</td>
          <td style="text-align: left">36.05</td>
          <td style="text-align: left">10.95</td>
          <td style="text-align: left">14.54</td>
          <td style="text-align: left">67.64</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">VCD</td>
          <td style="text-align: left">36.98</td>
          <td style="text-align: left">12.28</td>
          <td style="text-align: left">14.88</td>
          <td style="text-align: left">71.12</td>
          <td style="text-align: left">32.50</td>
          <td style="text-align: left">9.34</td>
          <td style="text-align: left">12.52</td>
          <td style="text-align: left">67.74</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>ASD</strong></td>
          <td style="text-align: left"><strong>38.32</strong></td>
          <td style="text-align: left"><strong>8.54</strong></td>
          <td style="text-align: left"><strong>10.20</strong></td>
          <td style="text-align: left"><strong>72.98</strong></td>
          <td style="text-align: left"><strong>39.64</strong></td>
          <td style="text-align: left"><strong>6.57</strong></td>
          <td style="text-align: left"><strong>9.50</strong></td>
          <td style="text-align: left"><strong>67.29</strong></td>
      </tr>
  </tbody>
</table>
<ul>
<li><strong>关键结论</strong>：ASD方法在所有数据集和指标上均优于基线方法（包括Vanilla和其他适应后的方法）。在幻觉问题最突出的VGGSound-Animal数据集上，改进尤为显著。例如，在video-SALMONN-o1上，句子级幻觉率C_S从37.74%大幅降至25.07%。图6的参数敏感性分析表明，ASD在$\alpha$取值0.4-0.8范围内都能稳定地降低幻觉指标，但过大的$\alpha$可能导致描述丰富度（F1分数）下降。</li>
</ul>
<p><img alt="Figure 6: Parameter sensitivity of α with CHAIR metrics" loading="lazy" src="https://arxiv.org/html/2605.10815v1/fig/qwen_ablation_alpha.png">
<img alt="Figure 6b: Parameter sensitivity of α with CHAIR metrics" loading="lazy" src="https://arxiv.org/html/2605.10815v1/fig/salmon_ablation_alpha.png">
<strong>图6说明</strong>：此图展示了超参数$\alpha$对两种模型幻觉指标（CHAIR的C_S和C_I）的影响。曲线表明，在较宽的$\alpha$范围内（如0.4到0.8），ASD都能有效降低幻觉率，证明了方法的鲁棒性。然而，当$\alpha$过大时，幻觉率可能反弹或描述丰富度下降，这提示了在抑制幻觉与保持生成细节之间存在权衡。</p>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li><strong>训练数据</strong>：论文是分析性工作，不涉及模型训练。分析和实验所使用的数据如下：
<ul>
<li><strong>因果追踪数据</strong>：基于VGGSound测试集构建。从20个音频主导类别和20个视频主导类别中各选取1000个样本，并根据公式1和2的预测一致性进行筛选，最终每个模型保留了数百到上千个样本（见表5）。</li>
<li><strong>幻觉缓解评估数据</strong>：使用了三个数据集：1) <strong>VGGSound-Animal</strong>：从VGGSounder中筛选出的约360个干净的单一动物类别样本；2) <strong>VGGSound-All</strong>：约1200个包含多标签的VGGSound样本；3) <strong>AudioSet</strong>：来自(Chen et al., 2025)的约680个干净样本。</li>
</ul>
</li>
<li><strong>损失函数</strong>：不适用（分析性工作）。</li>
<li><strong>训练策略</strong>：不适用（分析性工作）。</li>
<li><strong>关键超参数</strong>：
<ul>
<li><strong>汇聚点选择</strong>：全局汇聚点定义为在所有层中作为汇聚点出现频率最高的Top-K个token，$K = |\mathcal{T}|/N$，其中$|\mathcal{T}|$是输入序列长度，$N$是归一化常数，实验中$N \in {2, 3, 4}$。识别汇聚点的阈值$\tau$和维度$\mathcal{D}_{sink}$见表4。</li>
<li><strong>ASD方法</strong>：核心超参数是注意力调制强度$\alpha$，实验中固定为0.6。自适应引导系数$\gamma_t$的计算涉及多个参数：最大引导尺度$\gamma_{max}=0.6$，自适应门控阈值$\tau=0.6$，文本注意力质量阈值$\rho=0.5$，动量系数$\beta=0.7$，数值稳定常数$\epsilon$（公式14）。</li>
</ul>
</li>
<li><strong>训练硬件</strong>：论文中未提供训练硬件信息（因本研究为分析性工作，不涉及新模型训练）。</li>
<li><strong>推理细节</strong>：
<ul>
<li><strong>ASD推理</strong>：在每个解码步骤执行两次前向传播（原始通路和校准通路），然后按公式8进行加权组合。这导致了约3.7倍的推理延迟（附录B.2.5）。</li>
<li><strong>因果追踪推理</strong>：需要进行多次前向传播（干净、破坏、修复）以计算IE值。</li>
</ul>
</li>
<li><strong>正则化或稳定训练技巧</strong>：不适用。</li>
</ul>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<p><strong>创新性：2.5/3</strong>
论文问题设定新颖，聚焦于AVLLM这一前沿但内部机制不明的领域。提出的“单模态主导”因果追踪框架具有方法论上的应用创新，能有效隔离研究跨模态信息流。最关键的洞察在于发现了“跨模态汇聚点”的功能异质性，这一发现超越了现有对汇聚点的笼统理解。所提出的ASD方法是基于该洞察的直接应用，自适应机制设计合理。然而，其核心技术和方法（因果追踪、MDS、注意力调制）均基于现有工作，创新性主要体现在迁移应用和新发现上，而非方法论的根本性突破。</p>
<p><strong>技术严谨性：1.7/2</strong>
方法整体严谨。因果追踪的设计有充分的动机（如选择SA前patching）和对照实验（表8，附录B.1.2）。MDS指标定义清晰，用于功能分类具有说服力。ASD算法设计完整，包含了稳定性措施。不足之处在于：1) 跨模态汇聚点的定义依赖于MDS的简单二分法（等分），这或许过于简化，可能忽略了更复杂的连续分布或聚类；2) 在消融实验（图6）中，仅展示了ASD对幻觉指标和描述丰富度的影响，但未深入分析其可能对其他下游任务（如多模态理解、问答）性能的影响边界。</p>
<p><strong>实验充分性：1.5/2</strong>
实验非常充分。在五个不同的开源AVLLM上验证了核心发现，覆盖了不同架构和规模。消融实验（不同token类型、不同N值、不同patching位置、参数敏感性、替代腐蚀方法等）全面。幻觉缓解实验选择了针对性的基准（VGGSound-Animal）和通用基准（VGGSound-All， AudioSet），并与多个基线（PAI， VCD， AVCD， FMD）进行了对比。结果表格详实，数字清晰。主要短板是所有分析和ASD验证都基于“分类”或“字幕生成”任务，且多选题设置对于理解开放式生成任务的泛化能力有限。</p>
<p><strong>清晰度：0.8/1</strong>
论文写作非常清晰，结构完整。符号定义明确（如IE， MDS），核心概念（单模态主导、跨模态汇聚点）阐述清楚。图表质量高，直观地支持了主要论点。附录提供了丰富的实现细节和额外分析。轻微扣分点在于，对于非多模态模型解释性领域的读者，部分术语（如sink dimensions）需要依赖背景知识。</p>
<p><strong>影响力：0.7/1</strong>
论文对理解和改进AVLLM具有直接的推动作用。提出的“跨模态汇聚点”概念为后续的可解释性研究和模型改进提供了新的抓手。ASD作为一种无需训练的即插即用方法，具有实际应用价值。然而，该工作主要局限于AVLLM这一相对垂直的领域，且ASD方法仅针对字幕生成中的物体幻觉，其发现能否推广到更通用的多模态架构（如包含触觉、嗅觉）和其他任务有待验证。</p>
<p><strong>可复现性：0.7/1</strong>
论文提供了代码仓库链接（https://github.com/kaistmm/crossmodal-hub）。从附录看，提供了详细的超参数设置（表4， 公式15，16中的参数）、数据集筛选流程、以及分析工具（如对象和声音事件检测模型）。这为复现核心分析实验提供了较好的基础。但完整的复现指南（如README文件、环境配置、脚本使用说明）的详尽程度未在论文中直接体现，主要依赖读者自行查看代码仓库。</p>
<h3 id="-局限与问题">🚨 局限与问题</h3>
<ol>
<li>
<p><strong>论文明确承认的局限</strong>（附录D）：</p>
<ul>
<li>由于内存限制，未能在更大规模的模型（如Qwen3-Omni 30B）上验证发现的可扩展性。</li>
<li>所提出的ASD方法目前仅适用于字幕生成任务，无法直接推广到通用的问答等任务。</li>
<li>ASD方法引入了不可忽视的推理延迟（约3.7倍），可能限制其在实时应用中的部署。</li>
</ul>
</li>
<li>
<p><strong>审稿人发现的潜在问题</strong>：</p>
<ul>
<li><strong>实验范式的代表性</strong>：用于因果追踪验证的“多选题”设置虽然有助于构建受控实验，但其是否能完全代表模型在开放式生成中处理跨模态冲突的机制，仍需进一步验证。模型在生成自由文本时可能使用不同于选择题的注意力策略。</li>
<li><strong>ASD方法的过度干预与边界风险</strong>：虽然论文通过自适应系数和消融实验展示了方法的鲁棒性，但基于注意力的人工干预可能破坏模型内在的平衡，导致未预料的退化（如在某些需要依赖单模态线索的场景）。论文缺少对这类边界情况的系统分析。此外，Reverse ASD实验（附录B.2.3）显示性能退化并非与改进完全对称，暗示了干预可能并非在所有状态下都有效。</li>
<li><strong>分析深度</strong>：论文主要从注意力权重的角度进行分析和干预。然而，跨模态信息的集成可能发生在MLP层或其他组件中（尽管表8显示SA前patching更优）。一个更深入的问题是：跨模态汇聚点是否以及如何与模型的其他部分（如文本生成头）交互来最终影响输出？当前的分析停留在“存储位置”，对“使用机制”的探讨较少。</li>
<li><strong>部分模型结果</strong>：在video-SALMONN2+系列模型上，ASD方法带来的提升相对较小（因为其基线幻觉已很低）。这虽然在论文中提及，但也暗示了该方法可能更适用于“有显著模态冲突且模型尚未很好处理”的模型，其普适性价值需要更广泛的评估。</li>
</ul>
</li>
</ol>
<hr>
<p><a href="/audio-paper-digest-blog/posts/2026-05-12/">← 返回 2026-05-12 论文速递</a></p>
]]></content:encoded>
      <category>多模态模型</category>
      <category>因果追踪</category>
      <category>模型分析</category>
      <category>音频视觉</category>
      <category>幻觉缓解</category>
    </item>
  </channel>
</rss>
