<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>幻觉缓解 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E5%B9%BB%E8%A7%89%E7%BC%93%E8%A7%A3/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 12 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E5%B9%BB%E8%A7%89%E7%BC%93%E8%A7%A3/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Probing Cross-modal Information Hubs in Audio-Visual LLMs</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-12-probing-cross-modal-information-hubs-in-audio/</link>
      <pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-12-probing-cross-modal-information-hubs-in-audio/</guid>
      <description>&lt;h1 id=&#34;-probing-cross-modal-information-hubs-in-audio-visual-llms&#34;&gt;📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs&lt;/h1&gt;
&lt;p&gt;#多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;6.5/10&lt;/strong&gt; | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | &lt;a href=&#34;https://arxiv.org/abs/2605.10815v1&#34;&gt;arxiv&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Jihoo Jung（未说明所属机构）&lt;/li&gt;
&lt;li&gt;通讯作者：未明确说明（论文未明确指出通讯作者）&lt;/li&gt;
&lt;li&gt;作者列表：Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念，迁移到了更为复杂的音频-视觉大语言模型（AVLLM）中，并揭示了其功能异质性（单模态 vs. 跨模态），这是一个清晰且有价值的洞察。然而，其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据，这在很大程度上限制了其发现对于更通用、更开放的生成场景（如自由形式问答、长文本生成）的普适性和说服力。&lt;/p&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;问题&lt;/strong&gt;：当前对音频-视觉大语言模型（AVLLM）的内部工作机制，特别是跨模态信息如何在不同模态的token间流动和存储，缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;方法核心&lt;/strong&gt;：提出一个“单模态主导”框架，利用因果追踪技术，专门研究当模型输出主要由单一模态（如仅音频或仅视频）决定时，来自主导模态的信息是如何被编码到非主导模态的token中的。基于此，定义了“跨模态汇聚点”这一关键token子集，并进一步提出了一种无需训练的自适应解码方法（ASD）来缓解物体幻觉。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;新意&lt;/strong&gt;：相比于已有针对LLM/VLM的可解释性工作，本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造，而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景，并得出了关于“跨模态汇聚点”功能异质性的新洞察。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实验结果&lt;/strong&gt;：在五个开源AVLLM（Qwen2.5-Omni, video-SALMONN系列）上的因果追踪实验表明，跨模态信息主要存储在跨模态汇聚点中（IE值显著高于随机token和对象token）。应用ASD方法后，在VGGSound-Animal等数据集上，模型的物体幻觉指标（如CHAIR的C_S, C_I）得到显著降低（例如，在video-SALMONN-o1上，C_S从37.74降至25.07）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实际意义&lt;/strong&gt;：为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案，具有实际应用价值，有助于提升AVLLM在真实世界场景中的输出可靠性。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;主要局限&lt;/strong&gt;：验证主要基于选择题式的分类任务，对更开放的生成场景验证不足；所提出的ASD方法引入了推理延迟（约3.7倍）；部分模型（如video-SALMONN2+）基线幻觉已很低，方法提升空间有限。&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;代码&lt;/strong&gt;：https://github.com/kaistmm/crossmodal-hub&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型权重&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;Qwen2.5-Omni (7B/3B): 论文中引用了这些模型，其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为：
&lt;ul&gt;
&lt;li&gt;Qwen2.5-Omni-7B: &lt;a href=&#34;https://huggingface.co/Qwen/Qwen2.5-Omni-7B&#34;&gt;https://huggingface.co/Qwen/Qwen2.5-Omni-7B&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Qwen2.5-Omni-3B: &lt;a href=&#34;https://huggingface.co/Qwen/Qwen2.5-Omni-3B&#34;&gt;https://huggingface.co/Qwen/Qwen2.5-Omni-3B&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式，其权重可通过以下官方 GitHub 仓库获取：
&lt;ul&gt;
&lt;li&gt;video-SALMONN 系列: &lt;a href=&#34;https://github.com/TMElyralab/Video-SALMONN&#34;&gt;https://github.com/TMElyralab/Video-SALMONN&lt;/a&gt;
(注：具体模型权重文件可在上述仓库的 &lt;code&gt;weights&lt;/code&gt; 目录或通过 HuggingFace 的关联仓库下载，论文未提供直接链接)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据集&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;VGGSound&lt;/strong&gt;: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集，可通过其官方网站获取：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AudioSet&lt;/strong&gt;: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集，可通过官方网站获取：https://research.google.com/audioset/&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VGGSounder&lt;/strong&gt;: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文，但论文未提供直接下载链接。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Demo&lt;/strong&gt;：论文中未提及在线演示链接。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;复现材料&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;论文附录（Appendix）提供了详尽的复现细节，包括：
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Sink Token 定义与选择&lt;/strong&gt;：详细说明了如何识别全局 sink token，包括使用的维度、阈值等（见附录 A.1）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据集构建细节&lt;/strong&gt;：提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程（见附录 A.2）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算法细节&lt;/strong&gt;：给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置（见附录 A.3）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;基线方法适配&lt;/strong&gt;：说明了如何将 PAI 和 VCD 方法适配到音视频设置（见附录 A.4）。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;这些信息足以支持研究复现，但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;论文中引用的开源项目&lt;/strong&gt;：
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Qwen2.5-Omni / Qwen3-Omni&lt;/strong&gt;: 由阿里云通义千问团队发布的多模态大语言模型。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/QwenLM/Qwen2.5-Omni&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;video-SALMONN / video-SALMONN2+&lt;/strong&gt;: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/TMElyralab/Video-SALMONN&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VGGSound&lt;/strong&gt;: 音频-视觉分类数据集。
&lt;ul&gt;
&lt;li&gt;主页：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AudioSet&lt;/strong&gt;: 音频事件分类数据集。
&lt;ul&gt;
&lt;li&gt;主页：https://research.google.com/audioset/&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;DETR (DEtection TRansformer)&lt;/strong&gt;: 用于目标检测的 Transformer 模型。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/facebookresearch/detr&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sound Event Detection Model (引用为 (Wu et al., 2025))&lt;/strong&gt;: 用于识别音频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Image Segmentation Model (引用为 (Ravi et al., 2025))&lt;/strong&gt;: 用于识别视频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LLaMA&lt;/strong&gt;: 作为一些早期 AVLLM 的基础模型被引用。
&lt;ul&gt;
&lt;li&gt;仓库：https://github.com/meta-llama/llama&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VGGSounder&lt;/strong&gt;: 对 VGGSound 进行重新标注的评估集，用于构建更全面的 ground-truth。
&lt;ul&gt;
&lt;li&gt;论文引用来源为 (Zverev et al., 2025)，但未提供直接链接。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-方法概述和架构&#34;&gt;🏗️ 方法概述和架构&lt;/h3&gt;
&lt;p&gt;本文的核心方法旨在探明AVLLM中跨模态信息的存储位置，并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段：&lt;strong&gt;分析阶段（因果追踪）&lt;strong&gt;和&lt;/strong&gt;应用阶段（自适应解码）&lt;/strong&gt;。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-probing-cross-modal-information-hubs-in-audio-visual-llms">📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs</h1>
<p>#多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解</p>
<p>✅ <strong>6.5/10</strong> | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | <a href="https://arxiv.org/abs/2605.10815v1">arxiv</a></p>
<p>学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Jihoo Jung（未说明所属机构）</li>
<li>通讯作者：未明确说明（论文未明确指出通讯作者）</li>
<li>作者列表：Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念，迁移到了更为复杂的音频-视觉大语言模型（AVLLM）中，并揭示了其功能异质性（单模态 vs. 跨模态），这是一个清晰且有价值的洞察。然而，其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据，这在很大程度上限制了其发现对于更通用、更开放的生成场景（如自由形式问答、长文本生成）的普适性和说服力。</p>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li><strong>问题</strong>：当前对音频-视觉大语言模型（AVLLM）的内部工作机制，特别是跨模态信息如何在不同模态的token间流动和存储，缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。</li>
<li><strong>方法核心</strong>：提出一个“单模态主导”框架，利用因果追踪技术，专门研究当模型输出主要由单一模态（如仅音频或仅视频）决定时，来自主导模态的信息是如何被编码到非主导模态的token中的。基于此，定义了“跨模态汇聚点”这一关键token子集，并进一步提出了一种无需训练的自适应解码方法（ASD）来缓解物体幻觉。</li>
<li><strong>新意</strong>：相比于已有针对LLM/VLM的可解释性工作，本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造，而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景，并得出了关于“跨模态汇聚点”功能异质性的新洞察。</li>
<li><strong>实验结果</strong>：在五个开源AVLLM（Qwen2.5-Omni, video-SALMONN系列）上的因果追踪实验表明，跨模态信息主要存储在跨模态汇聚点中（IE值显著高于随机token和对象token）。应用ASD方法后，在VGGSound-Animal等数据集上，模型的物体幻觉指标（如CHAIR的C_S, C_I）得到显著降低（例如，在video-SALMONN-o1上，C_S从37.74降至25.07）。</li>
<li><strong>实际意义</strong>：为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案，具有实际应用价值，有助于提升AVLLM在真实世界场景中的输出可靠性。</li>
<li><strong>主要局限</strong>：验证主要基于选择题式的分类任务，对更开放的生成场景验证不足；所提出的ASD方法引入了推理延迟（约3.7倍）；部分模型（如video-SALMONN2+）基线幻觉已很低，方法提升空间有限。</li>
</ol>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li><strong>代码</strong>：https://github.com/kaistmm/crossmodal-hub</li>
<li><strong>模型权重</strong>：
<ul>
<li>Qwen2.5-Omni (7B/3B): 论文中引用了这些模型，其权重可通过 HuggingFace Hub 获取。具体的官方仓库链接为：
<ul>
<li>Qwen2.5-Omni-7B: <a href="https://huggingface.co/Qwen/Qwen2.5-Omni-7B">https://huggingface.co/Qwen/Qwen2.5-Omni-7B</a></li>
<li>Qwen2.5-Omni-3B: <a href="https://huggingface.co/Qwen/Qwen2.5-Omni-3B">https://huggingface.co/Qwen/Qwen2.5-Omni-3B</a></li>
</ul>
</li>
<li>video-SALMONN-o1 (7B) 和 video-SALMONN2+ (7B/3B): 论文中引用了这些模型。根据论文引用和常见发布方式，其权重可通过以下官方 GitHub 仓库获取：
<ul>
<li>video-SALMONN 系列: <a href="https://github.com/TMElyralab/Video-SALMONN">https://github.com/TMElyralab/Video-SALMONN</a>
(注：具体模型权重文件可在上述仓库的 <code>weights</code> 目录或通过 HuggingFace 的关联仓库下载，论文未提供直接链接)</li>
</ul>
</li>
</ul>
</li>
<li><strong>数据集</strong>：
<ul>
<li><strong>VGGSound</strong>: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集，可通过其官方网站获取：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/</li>
<li><strong>AudioSet</strong>: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集，可通过官方网站获取：https://research.google.com/audioset/</li>
<li><strong>VGGSounder</strong>: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文，但论文未提供直接下载链接。</li>
</ul>
</li>
<li><strong>Demo</strong>：论文中未提及在线演示链接。</li>
<li><strong>复现材料</strong>：
<ul>
<li>论文附录（Appendix）提供了详尽的复现细节，包括：
<ul>
<li><strong>Sink Token 定义与选择</strong>：详细说明了如何识别全局 sink token，包括使用的维度、阈值等（见附录 A.1）。</li>
<li><strong>数据集构建细节</strong>：提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程（见附录 A.2）。</li>
<li><strong>算法细节</strong>：给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置（见附录 A.3）。</li>
<li><strong>基线方法适配</strong>：说明了如何将 PAI 和 VCD 方法适配到音视频设置（见附录 A.4）。</li>
</ul>
</li>
<li>这些信息足以支持研究复现，但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。</li>
</ul>
</li>
<li><strong>论文中引用的开源项目</strong>：
<ol>
<li><strong>Qwen2.5-Omni / Qwen3-Omni</strong>: 由阿里云通义千问团队发布的多模态大语言模型。
<ul>
<li>仓库：https://github.com/QwenLM/Qwen2.5-Omni</li>
</ul>
</li>
<li><strong>video-SALMONN / video-SALMONN2+</strong>: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。
<ul>
<li>仓库：https://github.com/TMElyralab/Video-SALMONN</li>
</ul>
</li>
<li><strong>VGGSound</strong>: 音频-视觉分类数据集。
<ul>
<li>主页：https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/</li>
</ul>
</li>
<li><strong>AudioSet</strong>: 音频事件分类数据集。
<ul>
<li>主页：https://research.google.com/audioset/</li>
</ul>
</li>
<li><strong>DETR (DEtection TRansformer)</strong>: 用于目标检测的 Transformer 模型。
<ul>
<li>仓库：https://github.com/facebookresearch/detr</li>
</ul>
</li>
<li><strong>Sound Event Detection Model (引用为 (Wu et al., 2025))</strong>: 用于识别音频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。</li>
<li><strong>Image Segmentation Model (引用为 (Ravi et al., 2025))</strong>: 用于识别视频对象 token。论文未提供具体项目名称和链接，仅在参考文献中列出。</li>
<li><strong>LLaMA</strong>: 作为一些早期 AVLLM 的基础模型被引用。
<ul>
<li>仓库：https://github.com/meta-llama/llama</li>
</ul>
</li>
<li><strong>VGGSounder</strong>: 对 VGGSound 进行重新标注的评估集，用于构建更全面的 ground-truth。
<ul>
<li>论文引用来源为 (Zverev et al., 2025)，但未提供直接链接。</li>
</ul>
</li>
</ol>
</li>
</ul>
<h3 id="-方法概述和架构">🏗️ 方法概述和架构</h3>
<p>本文的核心方法旨在探明AVLLM中跨模态信息的存储位置，并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段：<strong>分析阶段（因果追踪）<strong>和</strong>应用阶段（自适应解码）</strong>。</p>
<p><strong>1. 分析阶段：单模态主导框架下的因果追踪</strong></p>
<ul>
<li><strong>整体流程</strong>：为了追踪跨模态信息流，研究者首先构建一个“单模态主导”的场景。例如，在“音频主导”场景中，选择音频线索明确而视频线索模糊的样本，使得模型仅凭音频就能做出正确预测。然后，通过三次前向传播（干净运行、破坏运行、修复运行）来量化特定token子集所携带的跨模态信息量。</li>
<li><strong>核心组件</strong>：
<ul>
<li><strong>单模态主导框架</strong>：这是进行有效追踪的前提条件。论文定义了“音频主导”和“视频主导”两种设置（公式1和2），通过对比模型在多模态输入（$\hat{y}<em>{av}$）、单模态输入（$\hat{y}</em>{a}$, $\hat{y}_{v}$）下的预测结果来筛选符合条件的样本。这确保了研究的焦点是单一模态向另一模态传递的信息。</li>
<li><strong>因果追踪实验</strong>：这是量化信息的核心技术。其流程如图2所示。<strong>（1）干净运行</strong>：输入完整的音视频信息，获得正确预测。<strong>（2）破坏运行</strong>：在进入编码器前，将主导模态（如音频）的输入token表示清零，强迫模型仅依赖非主导模态（视频），通常会导致预测错误。<strong>（3）修复运行</strong>：从干净运行中取出非主导模态（视频）的隐藏状态，替换到破坏运行的对应位置，观察预测的恢复情况。<strong>关键设计选择与动机</strong>：论文选择在自注意力层<strong>之前</strong>进行隐藏状态替换（patching），而非之后。其动机是，替换前的状态可以被后续的自注意力机制“看到”，从而将恢复的信息传播给文本token，更有效地影响最终输出。这一设计选择得到了控制实验的验证（附录B.1.2，表8），在该实验中，直接修复主导模态token以获得近乎完美的预测恢复，结果显示“在SA前patching”的IE值远高于“在SA后”或“在MLP后”。</li>
<li><strong>信息量化指标</strong>：定义了两个间接效应（Indirect Effect）指标（公式3和4）：$IE_{clean}(S)$衡量修复子集$S$后，正确预测概率的恢复程度；$IE_{corrupt}(S)$衡量其压制错误预测的能力。较高的IE值表明子集$S$编码了丰富的跨模态信息。</li>
<li><strong>待验证的token子集</strong>：包括：1) 所有非主导模态token（上界）；2) 对象token（由外部模型识别）；3) 汇聚点token（通过模型内部激活筛选，特别定义了跨层稳定的“全局汇聚点”）；4) 随机token（基线）。</li>
</ul>
</li>
<li><strong>数据流与交互</strong>：输入音视频数据 -&gt; 编码器生成token -&gt; 在Transformer块中进行追踪实验（替换特定token的隐藏状态）-&gt; 计算输出概率变化（IE值）-&gt; 分析哪些token子集（对象、汇聚点）的IE值最高，从而定位信息枢纽。</li>
</ul>
<p><strong>2. 发现与深化：跨模态汇聚点的功能异质性</strong></p>
<ul>
<li>在确认汇聚点是关键信息枢纽后，论文进一步分析汇聚点的内部差异。引入“模态主导分数”（MDS，公式5）来量化每个汇聚点token从视频和音频模态分别接收到的平均注意力权重。MDS值的分布（如图3所示）揭示，即使在同一类汇聚点内，也存在显著差异：有些汇聚点主要接收自身模态的注意力（单模态汇聚点），而另一些则主要接收互补模态的注意力（跨模态汇聚点）。</li>
<li><strong>关键设计选择</strong>：基于MDS将汇聚点等分为“单模态汇聚点”和“跨模态汇聚点”两组，并分别进行因果追踪。结果显示（表2），修复“跨模态汇聚点”能获得比修复“单模态汇聚点”高得多的IE值，且其效果与修复全部汇聚点相当。这证明了跨模态汇聚点才是真正的跨模态信息载体。</li>
</ul>
<p><strong>3. 应用阶段：自适应汇聚点引导解码（ASD）</strong></p>
<ul>
<li><strong>整体流程</strong>：这是一个无需训练的推理时干预方法，旨在通过调整注意力分配来减少因模态冲突导致的物体幻觉。它在解码的每一步动态调整模型对“跨模态汇聚点”和“单模态汇聚点”的关注度。</li>
<li><strong>核心组件</strong>：
<ul>
<li><strong>预识别与分类</strong>：首先，使用MDS对全局汇聚点进行分类，得到跨模态汇聚点集合($\mathcal{S}<em>{cross}$)和单模态汇聚点集合($\mathcal{S}</em>{uni}$)。</li>
<li><strong>双通路前向传播</strong>：在每个解码步$t$，执行两次并行的前向传播：<strong>原始通路</strong>和<strong>校准通路</strong>。在校准通路中，应用注意力调制公式（公式6和7）：增大对$\mathcal{S}<em>{cross}$的注意力权重，减小对$\mathcal{S}</em>{uni}$的注意力权重，调制强度由超参数$\alpha$控制（实验中固定为0.6）。</li>
<li><strong>自适应引导系数</strong>：为避免固定调制强度可能带来的副作用，引入了自适应的引导系数$\gamma_t$。其计算基于原始通路中注意力分配的风险（即对单模态汇聚点的注意力占比，公式9）。具体而言，基础引导系数$\gamma_{t}^{\text{base}}$定义为单模态汇聚点平均注意力占总汇聚点注意力的比例。随后，通过阈值门控（当基础系数低于阈值$\tau$或文本注意力质量$r_t$高于阈值$\rho$时，$\gamma_t$置零）和动量平滑（公式16）得到最终的$\gamma_t$。当检测到模型可能过度关注易引发幻觉的单模态汇聚点时，$\gamma_t$增大，使得生成更多地依赖经过校准的、更倾向于跨模态信息的分布（公式8）。</li>
</ul>
</li>
<li><strong>数据流与交互</strong>：输入音视频及前文-&gt; 原始通路生成原始token概率分布$P_{orig}$；同时校准通路生成调整后的概率分布$P_{cali}$ -&gt; 根据自适应系数$\gamma_t$对两个分布进行加权组合，得到最终的采样分布$\tilde{P}$ -&gt; 从$\tilde{P}$中采样下一个token。</li>
</ul>
<p><img alt="Figure 2: Causal Tracing under the Unimodal Dominance Framework" loading="lazy" src="https://arxiv.org/html/2605.10815v1/x2.png">
<strong>图2说明</strong>：该图清晰地展示了因果追踪的三步流程。以“音频主导”为例：a) 干净运行使用完整输入；b) 破坏运行将音频输入清零，模型仅靠视频输入预测（易出错）；c) 修复运行将干净运行中的视频token隐藏状态替换回破坏运行的对应位置，观察预测的恢复。这一框架是定位跨模态信息流的实验基础。</p>
<p><img alt="Figure 3: Layer-wise MDS of audio and video sink tokens" loading="lazy" src="https://arxiv.org/html/2605.10815v1/fig/mds.png">
<strong>图3说明</strong>：该图可视化了Qwen2.5-Omni(7B)中视频和音频汇聚点token的模态主导分数（MDS）。MDS为正表示视频注意力占优，为负表示音频注意力占优。图中可见，无论是在音频汇聚点还是视频汇聚点内部，MDS值分布广泛，存在MDS接近0（平衡）和MDS绝对值较大（偏向某一模态）的token，直观证明了汇聚点功能异质性的存在。</p>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li><strong>提出“单模态主导”因果追踪框架</strong>：针对AVLLM双向信息流的复杂性，创新性地设计了基于“单模态主导”条件的因果追踪实验范式。该框架能有效隔离并测量从一个模态流向另一个模态的信息，是分析AVLLM跨模态交互的有效工具。</li>
<li><strong>揭示“跨模态汇聚点”的功能异质性</strong>：超越了“汇聚点存储全局信息”的普遍认知，首次在AVLLM中证明汇聚点并非同质。通过MDS指标和对比实验，明确区分并证实了“跨模态汇聚点”才是承载跨模态信息的核心功能子集，深化了对注意力机制在多模态模型中作用的理解。</li>
<li><strong>提出基于可解释性发现的无训练幻觉缓解方法（ASD）</strong>：将机制分析的发现直接转化为实用工具。ASD方法通过动态调整对“跨模态汇聚点”和“单模态汇聚点”的注意力，针对性地缓解因模态冲突导致的物体幻觉，实现了“理解-改进”的闭环，方法简单且效果显著。</li>
<li><strong>对AVLLM内部机制的系统性可解释性研究</strong>：在文本和视觉语言模型之外，为理解更复杂的音频-视觉语言模型的内部工作机制提供了系统性的实证研究范例，填补了该领域的部分空白。</li>
</ol>
<h3 id="-实验结果">📊 实验结果</h3>
<p>论文的实验主要分为两部分：一是用于定位信息枢纽的因果追踪实验，二是验证所提幻觉缓解方法ASD的效果实验。</p>
<p><strong>1. 因果追踪实验（表1，表2）</strong>
在五个AVLLM上，针对“音频主导”和“视频主导”场景，比较了修复不同token子集后的间接效应（IE）。</p>
<p><strong>表1：不同token集合的补丁结果</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模态</th>
          <th style="text-align: left">补丁策略</th>
          <th style="text-align: left">Qwen2.5-Omni(7B)</th>
          <th style="text-align: left">Qwen2.5-Omni(3B)</th>
          <th style="text-align: left">video-SALMONN-o1(7B)</th>
          <th style="text-align: left">video-SALMONN2+(7B)</th>
          <th style="text-align: left">video-SALMONN2+(3B)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
          <td style="text-align: left">#Tokens</td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>音频主导</strong></td>
          <td style="text-align: left">All</td>
          <td style="text-align: left">9.61</td>
          <td style="text-align: left">5.28</td>
          <td style="text-align: left">1440</td>
          <td style="text-align: left">7.83</td>
          <td style="text-align: left">3.48</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Object</td>
          <td style="text-align: left">5.04</td>
          <td style="text-align: left">2.44</td>
          <td style="text-align: left">613</td>
          <td style="text-align: left">3.53</td>
          <td style="text-align: left">1.12</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">6.24</td>
          <td style="text-align: left">2.94</td>
          <td style="text-align: left">603</td>
          <td style="text-align: left">6.99</td>
          <td style="text-align: left">2.70</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.31</td>
          <td style="text-align: left">1.94</td>
          <td style="text-align: left">362</td>
          <td style="text-align: left">6.36</td>
          <td style="text-align: left">2.08</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.26</td>
          <td style="text-align: left">1.23</td>
          <td style="text-align: left">256</td>
          <td style="text-align: left">5.50</td>
          <td style="text-align: left">1.64</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=2)</td>
          <td style="text-align: left">4.24</td>
          <td style="text-align: left">2.37</td>
          <td style="text-align: left">603</td>
          <td style="text-align: left">4.05</td>
          <td style="text-align: left">1.20</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=3)</td>
          <td style="text-align: left">2.97</td>
          <td style="text-align: left">1.55</td>
          <td style="text-align: left">362</td>
          <td style="text-align: left">2.71</td>
          <td style="text-align: left">0.72</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=4)</td>
          <td style="text-align: left">1.93</td>
          <td style="text-align: left">0.87</td>
          <td style="text-align: left">256</td>
          <td style="text-align: left">1.87</td>
          <td style="text-align: left">0.65</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>视频主导</strong></td>
          <td style="text-align: left">All</td>
          <td style="text-align: left">8.21</td>
          <td style="text-align: left">13.63</td>
          <td style="text-align: left">249</td>
          <td style="text-align: left">2.43</td>
          <td style="text-align: left">8.85</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Object</td>
          <td style="text-align: left">4.97</td>
          <td style="text-align: left">8.44</td>
          <td style="text-align: left">149</td>
          <td style="text-align: left">1.59</td>
          <td style="text-align: left">6.41</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">5.47</td>
          <td style="text-align: left">8.54</td>
          <td style="text-align: left">144</td>
          <td style="text-align: left">2.07</td>
          <td style="text-align: left">6.87</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.40</td>
          <td style="text-align: left">7.12</td>
          <td style="text-align: left">86</td>
          <td style="text-align: left">1.62</td>
          <td style="text-align: left">5.88</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.10</td>
          <td style="text-align: left">6.28</td>
          <td style="text-align: left">60</td>
          <td style="text-align: left">1.10</td>
          <td style="text-align: left">4.78</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=2)</td>
          <td style="text-align: left">4.56</td>
          <td style="text-align: left">6.83</td>
          <td style="text-align: left">144</td>
          <td style="text-align: left">1.22</td>
          <td style="text-align: left">5.29</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=3)</td>
          <td style="text-align: left">2.70</td>
          <td style="text-align: left">3.62</td>
          <td style="text-align: left">86</td>
          <td style="text-align: left">0.94</td>
          <td style="text-align: left">4.34</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Random (N=4)</td>
          <td style="text-align: left">1.86</td>
          <td style="text-align: left">2.30</td>
          <td style="text-align: left">60</td>
          <td style="text-align: left">0.58</td>
          <td style="text-align: left">3.46</td>
      </tr>
  </tbody>
</table>
<ul>
<li><strong>关键结论</strong>：表1显示，在大多数模型和场景下，修复汇聚点token（尤其是N=2时）的IE值接近甚至超过对象token和随机token，表明跨模态信息主要编码在汇聚点中。</li>
</ul>
<p><strong>表2：单模态和跨模态token集合的补丁结果</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模态</th>
          <th style="text-align: left">补丁策略</th>
          <th style="text-align: left">Qwen2.5-Omni(7B)</th>
          <th style="text-align: left">Qwen2.5-Omni(3B)</th>
          <th style="text-align: left">video-SALMONN-o1(7B)</th>
          <th style="text-align: left">video-SALMONN2+(7B)</th>
          <th style="text-align: left">video-SALMONN2+(3B)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
          <td style="text-align: left">#Tokens</td>
          <td style="text-align: left">IE_clean</td>
          <td style="text-align: left">IE_corrupt</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>音频主导</strong></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">6.24</td>
          <td style="text-align: left">2.94</td>
          <td style="text-align: left">603</td>
          <td style="text-align: left">6.99</td>
          <td style="text-align: left">2.70</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=2)</td>
          <td style="text-align: left">0.65</td>
          <td style="text-align: left">0.23</td>
          <td style="text-align: left">301</td>
          <td style="text-align: left">0.89</td>
          <td style="text-align: left">0.31</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=2)</strong></td>
          <td style="text-align: left"><strong>5.58</strong></td>
          <td style="text-align: left"><strong>2.95</strong></td>
          <td style="text-align: left"><strong>301</strong></td>
          <td style="text-align: left"><strong>6.57</strong></td>
          <td style="text-align: left"><strong>2.33</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.31</td>
          <td style="text-align: left">1.94</td>
          <td style="text-align: left">362</td>
          <td style="text-align: left">6.36</td>
          <td style="text-align: left">2.08</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=3)</td>
          <td style="text-align: left">0.92</td>
          <td style="text-align: left">0.39</td>
          <td style="text-align: left">181</td>
          <td style="text-align: left">1.02</td>
          <td style="text-align: left">0.18</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=3)</strong></td>
          <td style="text-align: left"><strong>3.54</strong></td>
          <td style="text-align: left"><strong>1.52</strong></td>
          <td style="text-align: left"><strong>181</strong></td>
          <td style="text-align: left"><strong>5.73</strong></td>
          <td style="text-align: left"><strong>1.85</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.26</td>
          <td style="text-align: left">1.23</td>
          <td style="text-align: left">256</td>
          <td style="text-align: left">5.50</td>
          <td style="text-align: left">1.64</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=4)</td>
          <td style="text-align: left">0.71</td>
          <td style="text-align: left">0.36</td>
          <td style="text-align: left">128</td>
          <td style="text-align: left">1.07</td>
          <td style="text-align: left">0.32</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=4)</strong></td>
          <td style="text-align: left"><strong>2.70</strong></td>
          <td style="text-align: left"><strong>0.99</strong></td>
          <td style="text-align: left"><strong>128</strong></td>
          <td style="text-align: left"><strong>4.90</strong></td>
          <td style="text-align: left"><strong>1.28</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>视频主导</strong></td>
          <td style="text-align: left">Sink (N=2)</td>
          <td style="text-align: left">5.47</td>
          <td style="text-align: left">8.54</td>
          <td style="text-align: left">144</td>
          <td style="text-align: left">2.07</td>
          <td style="text-align: left">6.87</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=2)</td>
          <td style="text-align: left">1.93</td>
          <td style="text-align: left">3.54</td>
          <td style="text-align: left">72</td>
          <td style="text-align: left">0.35</td>
          <td style="text-align: left">3.43</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=2)</strong></td>
          <td style="text-align: left"><strong>3.03</strong></td>
          <td style="text-align: left"><strong>4.53</strong></td>
          <td style="text-align: left"><strong>72</strong></td>
          <td style="text-align: left"><strong>1.25</strong></td>
          <td style="text-align: left"><strong>4.48</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=3)</td>
          <td style="text-align: left">4.40</td>
          <td style="text-align: left">7.12</td>
          <td style="text-align: left">86</td>
          <td style="text-align: left">1.62</td>
          <td style="text-align: left">5.88</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=3)</td>
          <td style="text-align: left">1.72</td>
          <td style="text-align: left">3.19</td>
          <td style="text-align: left">43</td>
          <td style="text-align: left">0.31</td>
          <td style="text-align: left">3.15</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=3)</strong></td>
          <td style="text-align: left"><strong>2.15</strong></td>
          <td style="text-align: left"><strong>3.70</strong></td>
          <td style="text-align: left"><strong>43</strong></td>
          <td style="text-align: left"><strong>1.01</strong></td>
          <td style="text-align: left"><strong>4.11</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Sink (N=4)</td>
          <td style="text-align: left">3.10</td>
          <td style="text-align: left">6.28</td>
          <td style="text-align: left">60</td>
          <td style="text-align: left">1.10</td>
          <td style="text-align: left">4.78</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Unimodal (N=4)</td>
          <td style="text-align: left">1.27</td>
          <td style="text-align: left">2.80</td>
          <td style="text-align: left">30</td>
          <td style="text-align: left">0.24</td>
          <td style="text-align: left">2.77</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>Crossmodal (N=4)</strong></td>
          <td style="text-align: left"><strong>1.45</strong></td>
          <td style="text-align: left"><strong>3.02</strong></td>
          <td style="text-align: left"><strong>30</strong></td>
          <td style="text-align: left"><strong>0.63</strong></td>
          <td style="text-align: left"><strong>3.57</strong></td>
      </tr>
  </tbody>
</table>
<ul>
<li><strong>关键结论</strong>：表2清晰地显示，修复“跨模态汇聚点”带来的IE值提升远高于修复“单模态汇聚点”，且效果与修复所有汇聚点相当，证明了跨模态汇聚点的核心作用。</li>
</ul>
<p><strong>2. 幻觉缓解实验（表3，图6）</strong>
在Qwen2.5-Omni(7B)和video-SALMONN-o1(7B)上，评估ASD方法在减少物体幻觉方面的效果。</p>
<p><strong>表3：ASD的定量结果</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">数据集</th>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Qwen2.5-Omni(7B)</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left">video-SALMONN-o1 (7B)</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">ALOHa ↑</td>
          <td style="text-align: left">C_S ↓</td>
          <td style="text-align: left">C_I ↓</td>
          <td style="text-align: left">F1 ↑</td>
          <td style="text-align: left">ALOHa ↑</td>
          <td style="text-align: left">C_S ↓</td>
          <td style="text-align: left">C_I ↓</td>
          <td style="text-align: left">F1 ↑</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>VGGSound-Animal</strong></td>
          <td style="text-align: left">Vanilla</td>
          <td style="text-align: left">40.71</td>
          <td style="text-align: left">48.21</td>
          <td style="text-align: left">37.13</td>
          <td style="text-align: left">55.24</td>
          <td style="text-align: left">36.21</td>
          <td style="text-align: left">37.74</td>
          <td style="text-align: left">32.09</td>
          <td style="text-align: left">53.68</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PAI</td>
          <td style="text-align: left">39.52</td>
          <td style="text-align: left">51.24</td>
          <td style="text-align: left">38.11</td>
          <td style="text-align: left">55.11</td>
          <td style="text-align: left">36.99</td>
          <td style="text-align: left">35.26</td>
          <td style="text-align: left">31.18</td>
          <td style="text-align: left">53.16</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">VCD</td>
          <td style="text-align: left">40.27</td>
          <td style="text-align: left">51.52</td>
          <td style="text-align: left">41.28</td>
          <td style="text-align: left">52.43</td>
          <td style="text-align: left">36.40</td>
          <td style="text-align: left">39.39</td>
          <td style="text-align: left">33.40</td>
          <td style="text-align: left">53.37</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>ASD</strong></td>
          <td style="text-align: left"><strong>42.77</strong></td>
          <td style="text-align: left"><strong>36.91</strong></td>
          <td style="text-align: left"><strong>34.15</strong></td>
          <td style="text-align: left"><strong>52.44</strong></td>
          <td style="text-align: left"><strong>43.29</strong></td>
          <td style="text-align: left"><strong>25.07</strong></td>
          <td style="text-align: left"><strong>25.71</strong></td>
          <td style="text-align: left"><strong>50.89</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>VGGSound-All</strong></td>
          <td style="text-align: left">Vanilla</td>
          <td style="text-align: left">35.02</td>
          <td style="text-align: left">30.70</td>
          <td style="text-align: left">20.67</td>
          <td style="text-align: left">58.69</td>
          <td style="text-align: left">32.74</td>
          <td style="text-align: left">30.63</td>
          <td style="text-align: left">22.39</td>
          <td style="text-align: left">53.40</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PAI</td>
          <td style="text-align: left">34.68</td>
          <td style="text-align: left">32.21</td>
          <td style="text-align: left">21.52</td>
          <td style="text-align: left">58.47</td>
          <td style="text-align: left">32.44</td>
          <td style="text-align: left">29.29</td>
          <td style="text-align: left">22.01</td>
          <td style="text-align: left">53.15</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">VCD</td>
          <td style="text-align: left">34.60</td>
          <td style="text-align: left">32.63</td>
          <td style="text-align: left">22.36</td>
          <td style="text-align: left">57.09</td>
          <td style="text-align: left">30.28</td>
          <td style="text-align: left">30.76</td>
          <td style="text-align: left">24.31</td>
          <td style="text-align: left">50.02</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>ASD</strong></td>
          <td style="text-align: left"><strong>38.89</strong></td>
          <td style="text-align: left"><strong>29.65</strong></td>
          <td style="text-align: left"><strong>21.74</strong></td>
          <td style="text-align: left"><strong>55.81</strong></td>
          <td style="text-align: left"><strong>36.63</strong></td>
          <td style="text-align: left"><strong>21.11</strong></td>
          <td style="text-align: left"><strong>18.42</strong></td>
          <td style="text-align: left"><strong>50.10</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>AudioSet</strong></td>
          <td style="text-align: left">Vanilla</td>
          <td style="text-align: left">38.24</td>
          <td style="text-align: left">8.92</td>
          <td style="text-align: left">10.93</td>
          <td style="text-align: left">69.73</td>
          <td style="text-align: left">36.81</td>
          <td style="text-align: left">11.39</td>
          <td style="text-align: left">14.91</td>
          <td style="text-align: left">67.27</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PAI</td>
          <td style="text-align: left">36.94</td>
          <td style="text-align: left">11.84</td>
          <td style="text-align: left">13.09</td>
          <td style="text-align: left">73.22</td>
          <td style="text-align: left">36.05</td>
          <td style="text-align: left">10.95</td>
          <td style="text-align: left">14.54</td>
          <td style="text-align: left">67.64</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">VCD</td>
          <td style="text-align: left">36.98</td>
          <td style="text-align: left">12.28</td>
          <td style="text-align: left">14.88</td>
          <td style="text-align: left">71.12</td>
          <td style="text-align: left">32.50</td>
          <td style="text-align: left">9.34</td>
          <td style="text-align: left">12.52</td>
          <td style="text-align: left">67.74</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>ASD</strong></td>
          <td style="text-align: left"><strong>38.32</strong></td>
          <td style="text-align: left"><strong>8.54</strong></td>
          <td style="text-align: left"><strong>10.20</strong></td>
          <td style="text-align: left"><strong>72.98</strong></td>
          <td style="text-align: left"><strong>39.64</strong></td>
          <td style="text-align: left"><strong>6.57</strong></td>
          <td style="text-align: left"><strong>9.50</strong></td>
          <td style="text-align: left"><strong>67.29</strong></td>
      </tr>
  </tbody>
</table>
<ul>
<li><strong>关键结论</strong>：ASD方法在所有数据集和指标上均优于基线方法（包括Vanilla和其他适应后的方法）。在幻觉问题最突出的VGGSound-Animal数据集上，改进尤为显著。例如，在video-SALMONN-o1上，句子级幻觉率C_S从37.74%大幅降至25.07%。图6的参数敏感性分析表明，ASD在$\alpha$取值0.4-0.8范围内都能稳定地降低幻觉指标，但过大的$\alpha$可能导致描述丰富度（F1分数）下降。</li>
</ul>
<p><img alt="Figure 6: Parameter sensitivity of α with CHAIR metrics" loading="lazy" src="https://arxiv.org/html/2605.10815v1/fig/qwen_ablation_alpha.png">
<img alt="Figure 6b: Parameter sensitivity of α with CHAIR metrics" loading="lazy" src="https://arxiv.org/html/2605.10815v1/fig/salmon_ablation_alpha.png">
<strong>图6说明</strong>：此图展示了超参数$\alpha$对两种模型幻觉指标（CHAIR的C_S和C_I）的影响。曲线表明，在较宽的$\alpha$范围内（如0.4到0.8），ASD都能有效降低幻觉率，证明了方法的鲁棒性。然而，当$\alpha$过大时，幻觉率可能反弹或描述丰富度下降，这提示了在抑制幻觉与保持生成细节之间存在权衡。</p>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li><strong>训练数据</strong>：论文是分析性工作，不涉及模型训练。分析和实验所使用的数据如下：
<ul>
<li><strong>因果追踪数据</strong>：基于VGGSound测试集构建。从20个音频主导类别和20个视频主导类别中各选取1000个样本，并根据公式1和2的预测一致性进行筛选，最终每个模型保留了数百到上千个样本（见表5）。</li>
<li><strong>幻觉缓解评估数据</strong>：使用了三个数据集：1) <strong>VGGSound-Animal</strong>：从VGGSounder中筛选出的约360个干净的单一动物类别样本；2) <strong>VGGSound-All</strong>：约1200个包含多标签的VGGSound样本；3) <strong>AudioSet</strong>：来自(Chen et al., 2025)的约680个干净样本。</li>
</ul>
</li>
<li><strong>损失函数</strong>：不适用（分析性工作）。</li>
<li><strong>训练策略</strong>：不适用（分析性工作）。</li>
<li><strong>关键超参数</strong>：
<ul>
<li><strong>汇聚点选择</strong>：全局汇聚点定义为在所有层中作为汇聚点出现频率最高的Top-K个token，$K = |\mathcal{T}|/N$，其中$|\mathcal{T}|$是输入序列长度，$N$是归一化常数，实验中$N \in {2, 3, 4}$。识别汇聚点的阈值$\tau$和维度$\mathcal{D}_{sink}$见表4。</li>
<li><strong>ASD方法</strong>：核心超参数是注意力调制强度$\alpha$，实验中固定为0.6。自适应引导系数$\gamma_t$的计算涉及多个参数：最大引导尺度$\gamma_{max}=0.6$，自适应门控阈值$\tau=0.6$，文本注意力质量阈值$\rho=0.5$，动量系数$\beta=0.7$，数值稳定常数$\epsilon$（公式14）。</li>
</ul>
</li>
<li><strong>训练硬件</strong>：论文中未提供训练硬件信息（因本研究为分析性工作，不涉及新模型训练）。</li>
<li><strong>推理细节</strong>：
<ul>
<li><strong>ASD推理</strong>：在每个解码步骤执行两次前向传播（原始通路和校准通路），然后按公式8进行加权组合。这导致了约3.7倍的推理延迟（附录B.2.5）。</li>
<li><strong>因果追踪推理</strong>：需要进行多次前向传播（干净、破坏、修复）以计算IE值。</li>
</ul>
</li>
<li><strong>正则化或稳定训练技巧</strong>：不适用。</li>
</ul>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<p><strong>创新性：2.5/3</strong>
论文问题设定新颖，聚焦于AVLLM这一前沿但内部机制不明的领域。提出的“单模态主导”因果追踪框架具有方法论上的应用创新，能有效隔离研究跨模态信息流。最关键的洞察在于发现了“跨模态汇聚点”的功能异质性，这一发现超越了现有对汇聚点的笼统理解。所提出的ASD方法是基于该洞察的直接应用，自适应机制设计合理。然而，其核心技术和方法（因果追踪、MDS、注意力调制）均基于现有工作，创新性主要体现在迁移应用和新发现上，而非方法论的根本性突破。</p>
<p><strong>技术严谨性：1.7/2</strong>
方法整体严谨。因果追踪的设计有充分的动机（如选择SA前patching）和对照实验（表8，附录B.1.2）。MDS指标定义清晰，用于功能分类具有说服力。ASD算法设计完整，包含了稳定性措施。不足之处在于：1) 跨模态汇聚点的定义依赖于MDS的简单二分法（等分），这或许过于简化，可能忽略了更复杂的连续分布或聚类；2) 在消融实验（图6）中，仅展示了ASD对幻觉指标和描述丰富度的影响，但未深入分析其可能对其他下游任务（如多模态理解、问答）性能的影响边界。</p>
<p><strong>实验充分性：1.5/2</strong>
实验非常充分。在五个不同的开源AVLLM上验证了核心发现，覆盖了不同架构和规模。消融实验（不同token类型、不同N值、不同patching位置、参数敏感性、替代腐蚀方法等）全面。幻觉缓解实验选择了针对性的基准（VGGSound-Animal）和通用基准（VGGSound-All， AudioSet），并与多个基线（PAI， VCD， AVCD， FMD）进行了对比。结果表格详实，数字清晰。主要短板是所有分析和ASD验证都基于“分类”或“字幕生成”任务，且多选题设置对于理解开放式生成任务的泛化能力有限。</p>
<p><strong>清晰度：0.8/1</strong>
论文写作非常清晰，结构完整。符号定义明确（如IE， MDS），核心概念（单模态主导、跨模态汇聚点）阐述清楚。图表质量高，直观地支持了主要论点。附录提供了丰富的实现细节和额外分析。轻微扣分点在于，对于非多模态模型解释性领域的读者，部分术语（如sink dimensions）需要依赖背景知识。</p>
<p><strong>影响力：0.7/1</strong>
论文对理解和改进AVLLM具有直接的推动作用。提出的“跨模态汇聚点”概念为后续的可解释性研究和模型改进提供了新的抓手。ASD作为一种无需训练的即插即用方法，具有实际应用价值。然而，该工作主要局限于AVLLM这一相对垂直的领域，且ASD方法仅针对字幕生成中的物体幻觉，其发现能否推广到更通用的多模态架构（如包含触觉、嗅觉）和其他任务有待验证。</p>
<p><strong>可复现性：0.7/1</strong>
论文提供了代码仓库链接（https://github.com/kaistmm/crossmodal-hub）。从附录看，提供了详细的超参数设置（表4， 公式15，16中的参数）、数据集筛选流程、以及分析工具（如对象和声音事件检测模型）。这为复现核心分析实验提供了较好的基础。但完整的复现指南（如README文件、环境配置、脚本使用说明）的详尽程度未在论文中直接体现，主要依赖读者自行查看代码仓库。</p>
<h3 id="-局限与问题">🚨 局限与问题</h3>
<ol>
<li>
<p><strong>论文明确承认的局限</strong>（附录D）：</p>
<ul>
<li>由于内存限制，未能在更大规模的模型（如Qwen3-Omni 30B）上验证发现的可扩展性。</li>
<li>所提出的ASD方法目前仅适用于字幕生成任务，无法直接推广到通用的问答等任务。</li>
<li>ASD方法引入了不可忽视的推理延迟（约3.7倍），可能限制其在实时应用中的部署。</li>
</ul>
</li>
<li>
<p><strong>审稿人发现的潜在问题</strong>：</p>
<ul>
<li><strong>实验范式的代表性</strong>：用于因果追踪验证的“多选题”设置虽然有助于构建受控实验，但其是否能完全代表模型在开放式生成中处理跨模态冲突的机制，仍需进一步验证。模型在生成自由文本时可能使用不同于选择题的注意力策略。</li>
<li><strong>ASD方法的过度干预与边界风险</strong>：虽然论文通过自适应系数和消融实验展示了方法的鲁棒性，但基于注意力的人工干预可能破坏模型内在的平衡，导致未预料的退化（如在某些需要依赖单模态线索的场景）。论文缺少对这类边界情况的系统分析。此外，Reverse ASD实验（附录B.2.3）显示性能退化并非与改进完全对称，暗示了干预可能并非在所有状态下都有效。</li>
<li><strong>分析深度</strong>：论文主要从注意力权重的角度进行分析和干预。然而，跨模态信息的集成可能发生在MLP层或其他组件中（尽管表8显示SA前patching更优）。一个更深入的问题是：跨模态汇聚点是否以及如何与模型的其他部分（如文本生成头）交互来最终影响输出？当前的分析停留在“存储位置”，对“使用机制”的探讨较少。</li>
<li><strong>部分模型结果</strong>：在video-SALMONN2+系列模型上，ASD方法带来的提升相对较小（因为其基线幻觉已很低）。这虽然在论文中提及，但也暗示了该方法可能更适用于“有显著模态冲突且模型尚未很好处理”的模型，其普适性价值需要更广泛的评估。</li>
</ul>
</li>
</ol>
<hr>
<p><a href="/audio-paper-digest-blog/posts/2026-05-12/">← 返回 2026-05-12 论文速递</a></p>
]]></content:encoded>
      <category>多模态模型</category>
      <category>因果追踪</category>
      <category>模型分析</category>
      <category>音频视觉</category>
      <category>幻觉缓解</category>
    </item>
    <item>
      <title>Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-12-separate-first-fuse-later-mitigating-cross-modal/</link>
      <pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-12-separate-first-fuse-later-mitigating-cross-modal/</guid>
      <description>&lt;h1 id=&#34;-separate-first-fuse-later-mitigating-cross-modal-interference-in-audio-visual-llms-reasoning-with-modality-specific-chain-of-thought&#34;&gt;📄 Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought&lt;/h1&gt;
&lt;p&gt;#音视频问答 #多模态模型 #跨模态推理 #幻觉缓解 #强化学习 #链式思维&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;6.0/10&lt;/strong&gt; | 前50% | #音视频问答 | #结构化推理 | #多模态模型 #跨模态推理 | &lt;a href=&#34;https://arxiv.org/abs/2605.09906v1&#34;&gt;arxiv&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;学术质量 6.0/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Xuanchen (未说明)&lt;/li&gt;
&lt;li&gt;通讯作者：未说明&lt;/li&gt;
&lt;li&gt;作者列表：Xuanchen Li (未说明), Yuheng Lu (未说明), Chenrui Cui (未说明), Tianrui Wang (未说明), Zikang Huang (未说明), Yu Jiang (未说明), Long Zhou (未说明), Longbiao Wang (未说明), Jianwu Dang (未说明)&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;论文针对音视频LLM中的跨模态干扰和幻觉问题，提出了一个结构清晰、动机合理的“先分离后融合”框架。其核心贡献在于将“模态分离推理”的文本结构与“模态非对称注意力掩码”的底层计算约束相结合，并用两阶段强化学习进行训练。然而，其创新性更多体现在对已有技术（结构化CoT、自定义注意力掩码、RL奖励工程）的针对性组合与应用，而非提出根本性的新机制。此外，论文声称的“state-of-the-art”性能建立在与并非当前最强基线的对比之上，且实验缺乏统计显著性检验，这在一定程度上削弱了结论的强度。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-separate-first-fuse-later-mitigating-cross-modal-interference-in-audio-visual-llms-reasoning-with-modality-specific-chain-of-thought">📄 Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought</h1>
<p>#音视频问答 #多模态模型 #跨模态推理 #幻觉缓解 #强化学习 #链式思维</p>
<p>✅ <strong>6.0/10</strong> | 前50% | #音视频问答 | #结构化推理 | #多模态模型 #跨模态推理 | <a href="https://arxiv.org/abs/2605.09906v1">arxiv</a></p>
<p>学术质量 6.0/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Xuanchen (未说明)</li>
<li>通讯作者：未说明</li>
<li>作者列表：Xuanchen Li (未说明), Yuheng Lu (未说明), Chenrui Cui (未说明), Tianrui Wang (未说明), Zikang Huang (未说明), Yu Jiang (未说明), Long Zhou (未说明), Longbiao Wang (未说明), Jianwu Dang (未说明)</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>论文针对音视频LLM中的跨模态干扰和幻觉问题，提出了一个结构清晰、动机合理的“先分离后融合”框架。其核心贡献在于将“模态分离推理”的文本结构与“模态非对称注意力掩码”的底层计算约束相结合，并用两阶段强化学习进行训练。然而，其创新性更多体现在对已有技术（结构化CoT、自定义注意力掩码、RL奖励工程）的针对性组合与应用，而非提出根本性的新机制。此外，论文声称的“state-of-the-art”性能建立在与并非当前最强基线的对比之上，且实验缺乏统计显著性检验，这在一定程度上削弱了结论的强度。</p>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li><strong>要解决的问题</strong>：音频-视觉大语言模型在联合处理音频和视频信息时，存在严重的跨模态干扰问题。一个模态的信息会错误地引导另一个模态的解读，导致模型产生与输入证据不符的幻觉内容。作者将此归因于模型在中间推理过程中缺乏对跨模态交互的控制，以及现有的视觉主导偏差。</li>
<li><strong>方法核心</strong>：提出了“先分离，后融合”（SFFL）框架。该框架包含：(1) <strong>首选证据模态（PEM）数据管道</strong>：通过在不同模态输入设置下评估模型表现，自动标注每个实例应主要依赖的模态。(2) <strong>分离式融合音视频推理（SFR）</strong>：一个结构化的输出模板，使用控制标签强制模型先分别生成视觉和音频的独立推理链，再进行融合。(3) <strong>模态非对称注意力掩码（MAAM）</strong>：在Transformer注意力层实施硬约束，在生成视觉推理时禁止关注音频输入，在生成音频推理时禁止关注视频输入及整个视觉推理段，从底层防止信息泄漏。训练采用<strong>两阶段的组相对策略优化（GRPO）</strong>：第一阶段仅优化结构正确性（PEM预测和SFR格式），第二阶段在此基础上加入答案正确性奖励。</li>
<li><strong>与已有方法相比的新颖性</strong>：与多数将音视频特征拼接后联合推理的方法不同，SFFL在推理结构和底层注意力计算上显式地分离了模态。其新颖性在于系统性地整合了PEM引导的实例级偏好、结构化的分离推理路径、以及从计算机制上杜绝跨模态泄漏的MAAM硬约束，并采用强化学习而非监督微调来习得这种推理模式。这被视为一种有效的增量式改进或应用创新。</li>
<li><strong>主要实验结果</strong>：在Qwen3-Omni-30B-A3B-Instruct骨干上，SFFL在跨模态幻觉基准AVHBench的平均分达到81.29，相比零样本基线提升约8.17个百分点；在三个通用AVQA基准（AVQA, Valor2, MUSIC-AVQA）的平均准确率达到80.24，相对零样本基线平均提升约5.16%。消融实验表明，MAAM是性能提升的主要稳定来源，而SFR对匹配任务（MIS）提升显著。两阶段复合奖励训练取得了最佳平衡。</li>
<li><strong>实际意义</strong>：为缓解多模态LLM中的跨模态干扰提供了一种结构性解决方案。通过结构化的推理路径和注意力控制来减少幻觉，提高了模型在需要精确音视频推理任务中的可靠性和鲁棒性。</li>
<li><strong>主要局限性</strong>：方法依赖于精心构建的PEM标签数据集。模型在训练过程中可能部分学习忽略输入信号，这可能限制其对复杂互补场景的利用。实验对比的基线并非当前最强SOTA，且缺乏对性能提升的统计显著性分析。</li>
</ol>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文中提供了匿名代码仓库链接：https://anon7f3c2a.github.io/。论文提到代码库改编自 <code>ms-swift</code>。</li>
<li>模型权重：
<ul>
<li>主干模型为 <code>Qwen3-Omni-30B-A3B-Instruct</code>，其权重在 Hugging Face 上可获取：https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct</li>
<li>主干模型为 <code>Qwen2.5-Omni-7B</code>，其权重在 Hugging Face 上可获取：https://huggingface.co/Qwen/Qwen2.5-Omni-7B-Instruct</li>
<li>用于计算 CoT 一致性的嵌入模型 <code>Qwen3-Embedding-8B</code>，其权重在 Hugging Face 上可获取：https://huggingface.co/Qwen/Qwen3-Embedding-8B</li>
</ul>
</li>
<li>数据集：
<ul>
<li><strong>AVQA-PEM-14K</strong>：论文自行构建的训练数据集，基于原始 AVQA 数据集。论文中未提供直接的公开下载链接。</li>
<li><strong>评估数据集</strong>：
<ul>
<li>AVHBench: <a href="https://github.com/AVHBench/AVHBench">https://github.com/AVHBench/AVHBench</a></li>
<li>AVQA (测试集): <a href="https://github.com/xudejing/video-question-answering">https://github.com/xudejing/video-question-answering</a></li>
<li>Valor32k-AVQA v2.0: <a href="https://github.com/linbaiw/Valor32k">https://github.com/linbaiw/Valor32k</a></li>
<li>MUSIC-AVQA: <a href="https://github.com/X-Lance/MUSIC-AVQA">https://github.com/X-Lance/MUSIC-AVQA</a></li>
</ul>
</li>
</ul>
</li>
<li>Demo：匿名演示地址为 <a href="https://anon7f3c2a.github.io/">https://anon7f3c2a.github.io/</a></li>
<li>复现材料：
<ul>
<li>训练细节（超参数、硬件等）在论文的 <strong>4.2 Training Details</strong> 节有详细说明。</li>
<li>数据构建流程的详细参数和筛选标准在附录 <strong>Appendix C Data Pipeline Details</strong> 中说明。</li>
<li>结构化提示模板在附录 <strong>Appendix G Prompts</strong> 中提供（图5和图6）。</li>
<li>GRPO 训练的数学公式在附录 <strong>Appendix E Group Relative Policy Optimization (GRPO)</strong> 中提供。</li>
</ul>
</li>
<li>论文中引用的开源项目：
<ul>
<li>ms-swift (代码库改编来源): <a href="https://github.com/modelscope/ms-swift">https://github.com/modelscope/ms-swift</a></li>
<li>Qwen3-Omni系列模型 (主干): <a href="https://huggingface.co/Qwen">https://huggingface.co/Qwen</a></li>
<li>Qwen2.5-Omni系列模型 (主干): <a href="https://huggingface.co/Qwen">https://huggingface.co/Qwen</a></li>
<li>AVHBench (评估基准): <a href="https://github.com/AVHBench/AVHBench">https://github.com/AVHBench/AVHBench</a></li>
<li>AVQA (评估基准): <a href="https://github.com/xudejing/video-question-answering">https://github.com/xudejing/video-question-answering</a></li>
<li>Valor32k-AVQA v2.0 (评估基准): <a href="https://github.com/linbaiw/Valor32k">https://github.com/linbaiw/Valor32k</a></li>
<li>MUSIC-AVQA (评估基准): <a href="https://github.com/X-Lance/MUSIC-AVQA">https://github.com/X-Lance/MUSIC-AVQA</a></li>
<li>VideoLLaMA2.1 (基线模型): <a href="https://github.com/DAMO-NLP-SG/Video-LLaMA">https://github.com/DAMO-NLP-SG/Video-LLaMA</a></li>
<li>video-SALMONN-2+ (基线模型): <a href="https://github.com/TMElyralab/Video-SALMONN">https://github.com/TMElyralab/Video-SALMONN</a></li>
<li>DeepSeek-R1-Zero (引用工作): <a href="https://github.com/deepseek-ai/DeepSeek-R1">https://github.com/deepseek-ai/DeepSeek-R1</a></li>
</ul>
</li>
</ul>
<h3 id="-方法概述和架构">🏗️ 方法概述和架构</h3>
<p>本文提出了一个名为“先分离，后融合”（SFFL）的框架，旨在通过结构化的推理路径和针对性的训练，减轻音频-视觉大语言模型在推理过程中的跨模态干扰。整个框架是一个多阶段的流水线，包括数据准备、结构化推理提示设计、注意力机制控制以及基于强化学习的训练。</p>
<p><strong>1. 整体流程概述</strong>
输入为一个问题和对应的音视频片段。模型首先进行一个“分离阶段”：在受限的注意力下，分别生成独立的音频推理链和视觉推理链，并预测一个“首选证据模态”（PEM）。随后进入“融合阶段”：模型综合两条推理链和PEM，生成最终答案。整个推理过程由特定的控制标签引导，并通过一个两阶段的强化学习过程进行训练，以优化推理结构和答案准确性。</p>
<p><strong>2. 主要组件/模块详解</strong></p>
<ul>
<li>
<p><strong>首选证据模态（PEM）数据管道</strong></p>
<ul>
<li><strong>功能</strong>：为训练集自动标注每个实例的PEM标签，指示对于当前问题，模型应该主要依赖音频、视觉还是二者共同证据，以缓解视觉主导偏差并引导自适应模态偏好。</li>
<li><strong>内部结构/实现</strong>：这是一个离线数据预处理流程。对于每个原始AVQA实例，构建三种输入设置：仅音频（A）、仅视频（V）、音视频（AV）。在每种设置下，使用预训练模型（Qwen3-Omni-Instruct）进行 n=8 次随机采样，生成候选答案和推理链。根据两个标准判断该设置下问题是否“可解”：(i) 答案正确率 ≥ τ_acc (0.75)；(ii) 推理链一致性（基于Qwen3-Embedding-8B的平均成对嵌入相似度）≥ τ_cons (0.8)。根据（A, V, AV）三种设置的可解模式组合进行分类：若A和AV可解但V不可解，标记PEM=音频；若V和AV可解但A不可解，标记PEM=视觉；若A和V不可解但AV可解，标记PEM=音视频。丢弃模糊、矛盾或过于简单的实例。</li>
<li><strong>输入输出</strong>：输入是原始AVQA实例（问题+音视频）。输出是带有PEM标签的训练数据集（AVQA-PEM-14K），约14k实例。</li>
</ul>
</li>
<li>
<p><strong>分离式融合音视频推理（SFR）</strong></p>
<ul>
<li><strong>功能</strong>：通过定义一个结构化的输出模板，在文本层面强制模型先进行模态分离推理，再进行融合，为分离推理提供高层的框架约束。</li>
<li><strong>内部结构/实现</strong>：定义了一组控制标签：<mod>（标记PEM预测）、<v>…</v>（视觉推理段）、<a>…</a>（音频推理段）、<sum>…</sum>（融合摘要段）、<ans>…</ans>（最终答案）。模型输出必须严格遵循格式：<code>[&lt;mod&gt;m&lt;/mod&gt; &lt;v&gt;视觉推理&lt;/v&gt; &lt;a&gt;音频推理&lt;/a&gt; &lt;sum&gt;融合摘要&lt;/sum&gt; &lt;ans&gt;答案&lt;/ans&gt;]</code>。<v>和<a>段被设计为在理想情况下互不访问对方模态的原始输入（此约束由MAAM实现），从而在文本生成阶段实现“分离”。</li>
<li><strong>输入输出</strong>：输入是问题、音视频特征以及指令提示。输出是遵循上述格式的文本序列。</li>
</ul>
</li>
<li>
<p><strong>模态非对称注意力掩码（MAAM）</strong></p>
<ul>
<li><strong>功能</strong>：在Transformer模型的注意力计算层面，对不同推理段施加不对称的可见性约束，防止信息泄漏，是实现真正“分离”的关键底层机制。</li>
<li><strong>内部结构/实现</strong>：MAAM是对标准因果注意力掩码的增强。定义了几个token位置集合：视频输入 token 集合 K^V，音频输入 token 集合 K^A，视觉推理段 token 集合 Q^v（位于<v>…</v>内），音频推理段 token 集合 Q^a（位于<a>…</a>内），整个视觉推理段位置集合 K^v（包含Q^v及边界标签）。最终注意力掩码 M = M^{causal} + M^{MAAM}。M^{MAAM}的规则为：
<ol>
<li>当查询位置 i ∈ Q^v 时，禁止关注任何键位置 j ∈ K^A。</li>
<li>当查询位置 i ∈ Q^a 时，禁止关注任何键位置 j ∈ K^V。</li>
<li>当查询位置 i ∈ Q^a 时，禁止关注任何键位置 j ∈ K^v。
其他查询-键对遵循默认因果可见性（即 M_{ij}^{MAAM} = 0）。在实现时，通过扫描序列识别控制标签和模态指示token来定位这些集合，并实例化一个布尔掩码矩阵。训练时构建一次并广播；自回归推理时逐行更新，仅引入 O(L) 额外开销。</li>
</ol>
</li>
<li><strong>输入输出</strong>：输入是序列中每个token的位置类型（属于哪个模态输入或推理段）。输出是应用于注意力权重的 L×L 掩码矩阵。</li>
</ul>
</li>
<li>
<p><strong>两阶段GRPO强化学习训练</strong></p>
<ul>
<li><strong>功能</strong>：通过设计可验证的奖励函数，训练模型学会遵循SFFL的推理结构并产生正确答案，而非通过SFT强加模式。</li>
<li><strong>内部结构/实现</strong>：
<ol>
<li><strong>第一阶段（结构对齐）</strong>：奖励仅为 R_{mps}（模态偏好与结构奖励）。当且仅当模型预测的PEM正确且输出结构完全匹配SFR格式时，奖励为1，否则为0。此阶段专注于让模型学会生成符合要求的推理结构和PEM预测。</li>
<li><strong>第二阶段（答案优化）</strong>：奖励为复合奖励 R_{stage2} = λ_acc * R_acc + λ_mps * R_mps。其中 R_acc 是答案正确性奖励（答案正确则为1）。权重设置为 λ_acc=1.0, λ_mps=0.2。此阶段在保持结构约束的同时，优化答案准确性。
训练算法采用GRPO，通过比较一组候选回答的奖励来计算优势，并更新策略模型。损失函数包含KL散度惩罚以防止策略偏离参考策略过远。具体超参数：第一阶段学习率1e-5，全局batch size 96，rollouts=4；第二阶段学习率1e-6，batch size 48，rollouts=4。骨干模型为Qwen3-Omni-30B-A3B-Instruct，使用LoRA微调。</li>
</ol>
</li>
<li><strong>输入输出</strong>：输入是AVQA-PEM-14K训练数据（问题+音视频）和奖励函数。输出是优化后的模型参数。</li>
</ul>
</li>
</ul>
<p><strong>3. 组件间的数据流与交互</strong>
数据流是单向的：原始数据 → <strong>PEM数据管道</strong> → 带PEM标签的训练集 → <strong>两阶段GRPO训练</strong>。在训练和推理阶段，输入（问题+音视频）进入LLM骨干网络，输出受<strong>SFR模板</strong>约束的文本序列。为了保证SFR模板的“分离”在模型内部也成立，在计算注意力时动态应用<strong>MAAM</strong>。<code>R_{mps}</code>奖励的计算需要解析模型输出中的PEM和结构，<code>R_{acc}</code>需要解析最终答案。整个系统是一个端到端可微（对于策略梯度）的框架。</p>
<p><strong>4. 关键设计选择及动机</strong></p>
<ul>
<li><strong>选择结构化CoT而非简单拼接</strong>：动机是联合推理会导致干扰，结构化分离能提供明确的控制点。</li>
<li><strong>选择MAAM而非仅靠提示</strong>：动机是因果注意力机制在没有约束的情况下，即使文本用<code>&lt;v&gt;</code>分开，底层仍可能通过注意力访问不该访问的模态信息，MAAM从机制上杜绝了这种泄漏。</li>
<li><strong>选择强化学习而非监督微调</strong>：动机是SFR格式是一种需要学习的“行为”，而非简单的输入-输出映射。RL奖励可以直接针对格式和答案正确性进行优化，避免了SFT可能覆盖模型原有能力的风险（如SFT实验所示，泛化性下降）。</li>
<li><strong>将PEM预测置于推理链最前</strong>：论文在附录F中解释，如果将PEM放在分离推理之后，它就变成了事后归因而非事前控制信号，失去了引导证据使用的作用。</li>
</ul>
<p><strong>5. 多阶段/多模块逐层展开</strong></p>
<ol>
<li><strong>数据准备阶段</strong>：运行PEM数据管道，构建AVQA-PEM-14K数据集。</li>
<li><strong>模型训练阶段</strong>：
<ul>
<li><strong>阶段一（结构对齐）</strong>：在AVQA-PEM-14K上进行GRPO训练，奖励仅为R_{mps}，目标是让模型学会生成正确的SFR格式和PEM预测。</li>
<li><strong>阶段二（答案优化）</strong>：继续在同一数据集上进行GRPO训练，奖励变为R_acc + 0.2*R_{mps}，目标是在保持结构正确的前提下，提升答案准确性。</li>
</ul>
</li>
<li><strong>推理阶段</strong>：给定新的问题和音视频，模型在MAAM的约束下，生成符合SFR格式的完整输出，最终从<code>&lt;ans&gt;</code>标签中提取答案。</li>
</ol>
<p><strong>6. 架构图/流程图</strong></p>
<ul>
<li>图2（SFFL框架概述）清晰展示了整体流程：左侧为PEM数据管道，通过对比A/V/AV三种输入下的表现来标注PEM标签。右侧为SFFL推理与训练流程。在LLM内部，通过MAAM注意力掩码的控制，模型先生成独立的视觉推理（<v>段）和音频推理（<a>段），此过程中模态隔离。然后生成融合摘要（<sum>段）和最终答案（<ans>段）。整个输出结构由控制标签引导。训练则采用两阶段GRPO，分别优化结构奖励（R_mps）和复合奖励（R_acc + R_mps）。</li>
<li>图2（右下部分）也包含了MAAM的示意图，展示了注意力矩阵的约束规则：在生成视觉推理（<v>&hellip;）时，其注意力行只能看到视觉输入（Video Tokens）和之前文本，但看不到音频输入（Audio Tokens）；在生成音频推理（<a>&hellip;）时，其注意力行既看不到视频输入，也看不到整个视觉推理段（<v>&hellip;）。这种不对称的可见性从底层计算上保证了分离推理的有效性。</li>
</ul>
<p><strong>7. 专业术语解释</strong></p>
<ul>
<li><strong>跨模态干扰</strong>：指一个模态（如视觉）的特征或信息会干扰模型对另一个模态（如音频）信息的正确解析，导致错误理解或生成。</li>
<li><strong>首选证据模态（PEM）</strong>：一个数据层面的标签，指示对于一个特定的问答实例，哪一种模态（音频、视觉或两者）提供了足以回答问题的关键、可靠证据。</li>
<li><strong>模态非对称注意力掩码（MAAM）</strong>：一种定制的注意力掩码，对序列中不同部分（按模态或推理阶段划分）的相互可见性施加不同的规则，以实现信息隔离。</li>
<li><strong>组相对策略优化（GRPO）</strong>：一种强化学习算法，通过比较一组（Group）采样结果的奖励来计算优势，进而更新策略，相较于REINFORCE方差更低。</li>
<li><strong>分离式融合音视频推理（SFR）</strong>：一种结构化的提示模板，强制LLM在生成过程中先产生模态分离的推理链，再进行证据融合。</li>
</ul>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>
<p><strong>系统性的模态分离推理范式</strong>：</p>
<ul>
<li><strong>是什么</strong>：通过SFR模板（文本结构）和MAAM（计算约束）的协同，构建了一个从高层语义到底层计算的完整模态隔离框架，强制模型在推理过程中先独立处理各模态信息。</li>
<li><strong>之前局限</strong>：已有方法要么仅将音视频token拼接进行无约束联合推理，容易导致信息污染；要么仅在文本层面用标签分隔，但底层注意力机制仍允许信息泄漏。</li>
<li><strong>如何起作用</strong>：SFR提供了分离推理的“蓝图”，MAAM则确保“蓝图”在计算层面不被违反，二者结合实现了从“意图”到“执行”的完整分离控制。</li>
<li><strong>收益</strong>：消融实验表明，同时使用SFR和MAAM能带来最稳定和显著的性能提升，尤其在缓解幻觉相关指标（如AVH）上。</li>
</ul>
</li>
<li>
<p><strong>基于自动探针的实例级模态偏好引导</strong>：</p>
<ul>
<li><strong>是什么</strong>：PEM数据管道通过在不同模态输入下“探针”模型能力，自动标注实例级的模态偏好标签，并将此标签作为强化学习的奖励信号的一部分。</li>
<li><strong>之前局限</strong>：现有AVLM普遍存在视觉主导偏差，且缺乏有效机制让模型自适应地根据问题决定依赖哪种模态。</li>
<li><strong>如何起作用</strong>：PEM标签提供了“本题应侧重听什么/看什么”的学习信号。将其融入奖励函数（R_{mps}），促使模型学会预测正确的模态偏好，并依据该偏好进行推理。注意力分析（图3）显示，训练后的模型在融合阶段对不同模态推理链的注意力分配与预测的PEM高度一致。</li>
<li><strong>收益</strong>：表3的消融实验表明，使用预测的PEM进行推理，性能接近使用“上帝视角”的Oracle-PEM，显著优于随机PEM，验证了PEM学习和引导的有效性。</li>
</ul>
</li>
</ol>
<h3 id="-实验结果">📊 实验结果</h3>
<p>论文在两类基准上进行了评估：跨模态幻觉基准（AVHBench，包含VAH、AVH、MIS三个子任务）和通用音频-视觉问答基准（AVQA, Valor2, MUSIC-AVQA）。</p>
<p><strong>表1：论文主要结果对比（关键部分，直接引用自论文）</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">骨干模型</th>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">AVHBench</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left">General AVQA</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">VAH↑</td>
          <td style="text-align: left">AVH↑</td>
          <td style="text-align: left">MIS↑</td>
          <td style="text-align: left"><strong>Avg.↑</strong></td>
          <td style="text-align: left">AVQA↑</td>
          <td style="text-align: left">Valor2↑</td>
          <td style="text-align: left">MUSIC-AVQA↑</td>
          <td style="text-align: left"><strong>Avg.↑</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>Qwen3-Omni-30B</strong></td>
          <td style="text-align: left">Zero-shot Inference</td>
          <td style="text-align: left">74.28</td>
          <td style="text-align: left">81.95</td>
          <td style="text-align: left">66.36</td>
          <td style="text-align: left">73.12</td>
          <td style="text-align: left">89.62</td>
          <td style="text-align: left">76.56</td>
          <td style="text-align: left">66.00</td>
          <td style="text-align: left">76.33</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">PEM-AVQA-14k data (GRPO)</td>
          <td style="text-align: left">75.20</td>
          <td style="text-align: left">81.69</td>
          <td style="text-align: left">73.08</td>
          <td style="text-align: left">75.84</td>
          <td style="text-align: left">91.31</td>
          <td style="text-align: left">76.35</td>
          <td style="text-align: left">66.61</td>
          <td style="text-align: left">77.53</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>SFFL (Our)</strong></td>
          <td style="text-align: left"><strong>80.79</strong></td>
          <td style="text-align: left"><strong>85.12</strong></td>
          <td style="text-align: left"><strong>79.58</strong></td>
          <td style="text-align: left"><strong>81.29</strong></td>
          <td style="text-align: left"><strong>92.31</strong></td>
          <td style="text-align: left"><strong>77.43</strong></td>
          <td style="text-align: left"><strong>69.93</strong></td>
          <td style="text-align: left"><strong>80.24</strong></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>Qwen2.5-7B</strong></td>
          <td style="text-align: left">Zero-shot Inference</td>
          <td style="text-align: left">61.41</td>
          <td style="text-align: left">70.02</td>
          <td style="text-align: left">61.51</td>
          <td style="text-align: left">63.29</td>
          <td style="text-align: left">88.07</td>
          <td style="text-align: left">66.36</td>
          <td style="text-align: left">58.82</td>
          <td style="text-align: left">69.14</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"><strong>SFFL (Our)</strong></td>
          <td style="text-align: left">62.27</td>
          <td style="text-align: left">78.61</td>
          <td style="text-align: left">59.49</td>
          <td style="text-align: left">64.79</td>
          <td style="text-align: left">88.67</td>
          <td style="text-align: left">70.59</td>
          <td style="text-align: left">62.71</td>
          <td style="text-align: left">71.69</td>
      </tr>
  </tbody>
</table>
<p><strong>表2：PEM原理验证实验（无训练，直接引用自论文）</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">ID</th>
          <th style="text-align: left">Setting</th>
          <th style="text-align: left">VAH↑</th>
          <th style="text-align: left">AVH↑</th>
          <th style="text-align: left">MIS↑</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">1</td>
          <td style="text-align: left">Audio-only input</td>
          <td style="text-align: left">80.09</td>
          <td style="text-align: left">–</td>
          <td style="text-align: left">50.64</td>
      </tr>
      <tr>
          <td style="text-align: left">2</td>
          <td style="text-align: left">Video-only input</td>
          <td style="text-align: left">–</td>
          <td style="text-align: left">83.71</td>
          <td style="text-align: left">48.24</td>
      </tr>
      <tr>
          <td style="text-align: left">3</td>
          <td style="text-align: left">AV input</td>
          <td style="text-align: left">74.28</td>
          <td style="text-align: left">81.95</td>
          <td style="text-align: left">66.36</td>
      </tr>
      <tr>
          <td style="text-align: left">4</td>
          <td style="text-align: left">AV input, PEM=Audio</td>
          <td style="text-align: left">79.43</td>
          <td style="text-align: left">81.34</td>
          <td style="text-align: left">71.91</td>
      </tr>
      <tr>
          <td style="text-align: left">5</td>
          <td style="text-align: left">AV input, PEM=Visual</td>
          <td style="text-align: left">75.46</td>
          <td style="text-align: left">83.27</td>
          <td style="text-align: left">73.13</td>
      </tr>
      <tr>
          <td style="text-align: left">6</td>
          <td style="text-align: left">AV input, PEM=Audio-Visual</td>
          <td style="text-align: left">75.46</td>
          <td style="text-align: left">81.69</td>
          <td style="text-align: left">71.86</td>
      </tr>
  </tbody>
</table>
<p><strong>表3：PEM训练有效性实验（固定SFR，直接引用自论文）</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">Method</th>
          <th style="text-align: left">PEM Acc.↑</th>
          <th style="text-align: left">VAH↑</th>
          <th style="text-align: left">AVH↑</th>
          <th style="text-align: left">MIS↑</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Origin w/ CoT</td>
          <td style="text-align: left">87.76</td>
          <td style="text-align: left">75.41</td>
          <td style="text-align: left">79.93</td>
          <td style="text-align: left">74.89</td>
      </tr>
      <tr>
          <td style="text-align: left">Ours Stage 1</td>
          <td style="text-align: left">Random</td>
          <td style="text-align: left">33.3</td>
          <td style="text-align: left">73.41</td>
          <td style="text-align: left">74.21</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Oracle-PEM</td>
          <td style="text-align: left">100.00</td>
          <td style="text-align: left">79.69</td>
          <td style="text-align: left">84.68</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Predicted-PEM</td>
          <td style="text-align: left">94.40</td>
          <td style="text-align: left">76.64</td>
          <td style="text-align: left">81.78</td>
      </tr>
  </tbody>
</table>
<p><strong>表4：SFR与MAAM组件消融实验（直接引用自论文）</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">Settings</th>
          <th style="text-align: left">w/SFR</th>
          <th style="text-align: left">w/MAAM</th>
          <th style="text-align: left">AVHBench</th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left"></th>
          <th style="text-align: left">AVQA↑</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">VAH↑</td>
          <td style="text-align: left">AVH↑</td>
          <td style="text-align: left">MIS↑</td>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>Train</strong></td>
          <td style="text-align: left">GRPO</td>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">80.89</td>
          <td style="text-align: left">85.12</td>
          <td style="text-align: left">79.63</td>
          <td style="text-align: left">92.31</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">76.70</td>
          <td style="text-align: left">81.92</td>
          <td style="text-align: left">78.50</td>
          <td style="text-align: left">91.52</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">75.2</td>
          <td style="text-align: left">81.69</td>
          <td style="text-align: left">73.08</td>
          <td style="text-align: left">91.31</td>
      </tr>
      <tr>
          <td style="text-align: left"><strong>Train Free</strong></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">75.75</td>
          <td style="text-align: left">83.98</td>
          <td style="text-align: left">79.30</td>
          <td style="text-align: left">92.11</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">75.41</td>
          <td style="text-align: left">79.93</td>
          <td style="text-align: left">74.89</td>
          <td style="text-align: left">89.61</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">74.28</td>
          <td style="text-align: left">81.95</td>
          <td style="text-align: left">66.36</td>
          <td style="text-align: left">89.62</td>
      </tr>
  </tbody>
</table>
<p><strong>表5：训练策略与奖励设计消融实验（直接引用自论文）</strong></p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">Setting</th>
          <th style="text-align: left">AVHBench↑</th>
          <th style="text-align: left">AVQA↑</th>
          <th style="text-align: left">Valor2↑</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Zero-shot</td>
          <td style="text-align: left">73.12</td>
          <td style="text-align: left">89.62</td>
          <td style="text-align: left">76.56</td>
      </tr>
      <tr>
          <td style="text-align: left">SFT Approach</td>
          <td style="text-align: left">74.80</td>
          <td style="text-align: left">82.94</td>
          <td style="text-align: left">68.54</td>
      </tr>
      <tr>
          <td style="text-align: left">GRPO Approach</td>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
          <td style="text-align: left"></td>
      </tr>
      <tr>
          <td style="text-align: left">  Reward (ACC)</td>
          <td style="text-align: left">75.84</td>
          <td style="text-align: left">92.62</td>
          <td style="text-align: left">73.37</td>
      </tr>
      <tr>
          <td style="text-align: left">  Reward (MPS)</td>
          <td style="text-align: left">78.25</td>
          <td style="text-align: left">91.52</td>
          <td style="text-align: left">76.79</td>
      </tr>
      <tr>
          <td style="text-align: left">  Ours</td>
          <td style="text-align: left"><strong>81.29</strong></td>
          <td style="text-align: left"><strong>92.31</strong></td>
          <td style="text-align: left"><strong>77.43</strong></td>
      </tr>
  </tbody>
</table>
<p><strong>关键结论</strong>：</p>
<ol>
<li><strong>主实验（表1）</strong>：SFFL在两个骨干模型上均带来提升。在Qwen3-30B上，AVHBench平均分提升8.17个百分点，通用AVQA平均分提升约3.91个百分点。提升在对抗跨模态幻觉的任务（尤其是MIS）上最为显著。</li>
<li><strong>PEM原理验证（表2）</strong>：无训练时，强制指定与任务匹配的PEM（如VAH任务指定Audio）能提升性能，证明了PEM概念的合理性。</li>
<li><strong>PEM有效性（表3）</strong>：训练后的模型预测PEM准确率达94.4%，其性能接近使用真实标签（Oracle），远优于随机PEM。</li>
<li><strong>组件消融（表4）</strong>：MAAM是带来稳定提升的核心组件。SFR单独使用对MIS提升大但对其他指标不稳定。两者结合及GRPO训练带来最佳性能。</li>
<li><strong>训练策略消融（表5）</strong>：SFT在有限数据上可能损害泛化。仅优化答案准确性的GRPO在域内（AVQA）好但泛化弱。仅优化结构的GRPO稳定但答案准度不足。两阶段复合奖励训练实现了最佳平衡。</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li><strong>训练数据</strong>：AVQA-PEM-14K。通过论文所述数据管道从原始AVQA数据构建，规模约14k实例。包含每个实例的PEM标签。论文未提及使用额外数据进行预训练或微调。</li>
<li><strong>损失函数</strong>：训练采用GRPO损失函数（公式12）。奖励函数有两个：R_{mps}（二值，结构正确且PEM正确则为1）和R_{acc}（二值，答案正确则为1）。总奖励为两者加权和。</li>
<li><strong>训练策略</strong>：
<ul>
<li><strong>Stage 1</strong>：在AVQA-PEM-14K上进行GRPO，奖励仅为R_{mps}。骨干：Qwen3-Omni-30B-A3B-Instruct。微调：LoRA。学习率1e-5，全局batch size 96，rollouts=4。</li>
<li><strong>Stage 2</strong>：继续在同一数据集上进行GRPO，奖励为1.0<em>R_{acc} + 0.2</em>R_{mps}。学习率1e-6，batch size 48，rollouts=4。</li>
</ul>
</li>
<li><strong>关键超参数</strong>：骨干模型：Qwen3-Omni-30B-A3B-Instruct。微调方式：LoRA。PEM标注参数：n=8, τ_acc=0.75, τ_cons=0.8。</li>
<li><strong>训练硬件</strong>：8块NVIDIA H20 GPU。训练时长未提及。</li>
<li><strong>推理细节</strong>：论文未提供具体的解码温度、beam size等信息。推理时使用与训练相同的SFR模板和MAAM约束。</li>
<li><strong>正则化技巧</strong>：使用GRPO本身包含的KL散度惩罚（β D_{KL}）以防止策略偏离参考策略过远。未提及其他正则化技巧。</li>
</ul>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<p><strong>创新性：1.5/3</strong>
论文提出了一个清晰的框架（SFFL）来解决一个重要的问题（跨模态干扰）。其创新在于将结构化CoT、自定义注意力掩码（MAAM）和强化学习针对音视频干扰问题进行了有洞察力的组合与定制，并设计了PEM数据和奖励作为引导。这些组件本身并非首次提出，因此属于有效的增量改进或应用创新，而非提出全新的算法或理论。</p>
<p><strong>技术严谨性：1.0/2</strong>
论文对问题动机、方法各组件的设计阐述清晰。MAAM的形式化定义明确。消融实验设计合理。主要技术缺陷在于：1) MAAM的实现细节（如token边界扫描的高效实现）描述过于简略；2) 关键的强化学习超参数（如公式12中的α和β）在主文和附录中均未给出具体数值；3) 对MAAM带来的计算开销（O(L)）仅定性提及，缺乏实际速度对比数据。</p>
<p><strong>实验充分性：1.5/2</strong>
实验设计较为全面，评估了幻觉和通用QA两类基准，进行了充分的消融实验。主要不足：1) 声称“state-of-the-art”，但对比的基线（如Gemini-3-flash, VideoLLaMA2.1）并非当前最强模型，缺乏与GPT-4o、Gemini 1.5 Pro等顶级闭源模型或同架构下更强微调方法的对比；2) 所有实验结果均未报告误差线或进行显著性检验，无法判断性能提升的统计稳定性；3) 在MUSIC-AVQA上提升相对较小，论文归因于训练数据偏差，但未提供深入分析。</p>
<p><strong>清晰度：1.0/1</strong>
论文结构清晰，写作流畅。图表直观地展示了方法和结果。关键概念定义和符号使用一致。公式表述准确。附录提供了大量补充信息。对于复现核心方法，主文和附录的信息基本足够。</p>
<p><strong>影响力：0.5/1</strong>
该工作针对多模态LLM中的一个实际痛点提出了具体的解决方案。其“分离-融合”的思路和PEM的引导思想可能启发后续工作。然而，方法依赖于特定的骨干模型架构和训练框架，且主要贡献集中在一个相对垂直的任务上，其广泛影响力受限。</p>
<p><strong>可复现性：0.5/1</strong>
论文提供了匿名代码仓库链接和数据集构建的详细描述。训练超参数在附录中部分给出。这提供了较好的复现基础。然而，1) 代码链接是匿名的，最终开源情况未知；2) 自建的AVQA-PEM-14K数据集未提供公开下载；3) 复现依赖于对特定版本骨干模型和训练框架的精确配置，有一定门槛。</p>
<p><strong>总分：6.0/10</strong></p>
<h3 id="-局限与问题">🚨 局限与问题</h3>
<p><strong>1. 论文明确承认的局限</strong>：</p>
<ul>
<li><strong>附录B (Limitations and Future Directions)</strong>: 作者指出，SFFL训练的目的不是注入新知识，而是重塑推理模式以减少干扰。作者承认模型在部分地学习忽略输入信号。未来的一个方向是研究如何生成更详细、更少幻觉的音视频描述，同时保持模态分离。</li>
<li><strong>数据管道局限</strong>：PEM标签的构建依赖于一个预训练模型（Qwen3-Omni-Instruct）的多次采样和判断，可能引入该模型自身的偏差。</li>
</ul>
<p><strong>2. 审稿人发现的潜在问题</strong>：</p>
<ul>
<li><strong>基线对比的“SOTA”声称不足</strong>：论文声称达到“state-of-the-art performance”，但表1中对比的基线并非当前（2025年）最强的音视频理解模型。缺乏与最新、最强闭源模型（如GPT-4o）或同架构下更优微调方法的直接对比，其SOTA声明的说服力不足。</li>
<li><strong>缺乏统计显著性分析</strong>：所有实验结果均未报告标准差或进行假设检验，无法判断观察到的性能提升在统计上是否显著，尤其是在不同运行次数下。</li>
<li><strong>MAAM效率与泛化性分析缺失</strong>：虽然声称MAAM引入O(L)的额外开销，但未提供实际训练和推理速度的对比数据。MAAM的规则是手工设计的，对于更复杂的模态交互模式（如强互补）是否普适，缺乏分析。</li>
<li><strong>PEM标签的启发式依赖</strong>：构建PEM标签时使用的正确率阈值（τ_acc）和一致性阈值（τ_cons）是超参数，其选择会影响标签分布和最终性能。论文未探讨这些阈值对结果的影响（敏感性分析）。</li>
<li><strong>“部分忽略输入”的潜在风险</strong>：论文提到模型“部分地学习了忽略输入信号”。在需要深度融合互补信息的场景中，这种强分离策略是否会损害性能，值得进一步研究。</li>
<li><strong>错误分析缺失</strong>：论文没有提供失败案例的系统性分析，例如在哪些类型的问题上SFFL仍然会失败，这有助于更深入地理解方法的边界。</li>
</ul>
<hr>
<p><a href="/audio-paper-digest-blog/posts/2026-05-12/">← 返回 2026-05-12 论文速递</a></p>
]]></content:encoded>
      <category>音视频问答</category>
      <category>多模态模型</category>
      <category>跨模态推理</category>
      <category>幻觉缓解</category>
      <category>强化学习</category>
      <category>链式思维</category>
    </item>
  </channel>
</rss>
