📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs

#多模态模型 #因果追踪 #模型分析 #音频视觉 #幻觉缓解

6.5/10 | 前25% | #模型分析 | #因果追踪 | #多模态模型 #音频视觉 | arxiv

学术质量 6.5/8 | 影响力 0.8/2 | 可复现性 0.2/1 | 置信度 高

👥 作者与机构

  • 第一作者:Jihoo Jung(未说明所属机构)
  • 通讯作者:未明确说明(论文未明确指出通讯作者)
  • 作者列表:Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung。论文中未提供作者所属机构信息。

💡 毒舌点评

论文成功地将“注意力汇聚点”这一在纯文本和视觉-语言模型中熟知的概念,迁移到了更为复杂的音频-视觉大语言模型(AVLLM)中,并揭示了其功能异质性(单模态 vs. 跨模态),这是一个清晰且有价值的洞察。然而,其主要验证手段——“单模态主导”场景下的因果追踪实验——高度依赖于构建特定的多选题评测数据,这在很大程度上限制了其发现对于更通用、更开放的生成场景(如自由形式问答、长文本生成)的普适性和说服力。

📌 核心摘要

  1. 问题:当前对音频-视觉大语言模型(AVLLM)的内部工作机制,特别是跨模态信息如何在不同模态的token间流动和存储,缺乏深入理解。这影响了模型的可靠性、可解释性以及幻觉等问题的解决。
  2. 方法核心:提出一个“单模态主导”框架,利用因果追踪技术,专门研究当模型输出主要由单一模态(如仅音频或仅视频)决定时,来自主导模态的信息是如何被编码到非主导模态的token中的。基于此,定义了“跨模态汇聚点”这一关键token子集,并进一步提出了一种无需训练的自适应解码方法(ASD)来缓解物体幻觉。
  3. 新意:相比于已有针对LLM/VLM的可解释性工作,本文首次系统地研究了AVLLM这一更复杂架构中的跨模态信息枢纽。其新意不在于技术本身的全新创造,而在于将因果追踪等现有工具巧妙应用于一个新的、更复杂的场景,并得出了关于“跨模态汇聚点”功能异质性的新洞察。
  4. 实验结果:在五个开源AVLLM(Qwen2.5-Omni, video-SALMONN系列)上的因果追踪实验表明,跨模态信息主要存储在跨模态汇聚点中(IE值显著高于随机token和对象token)。应用ASD方法后,在VGGSound-Animal等数据集上,模型的物体幻觉指标(如CHAIR的C_S, C_I)得到显著降低(例如,在video-SALMONN-o1上,C_S从37.74降至25.07)。
  5. 实际意义:为理解和调试AVLLM的内部工作提供了一个新的视角和实用工具。所提出的ASD方法作为一种即插即用的幻觉缓解方案,具有实际应用价值,有助于提升AVLLM在真实世界场景中的输出可靠性。
  6. 主要局限:验证主要基于选择题式的分类任务,对更开放的生成场景验证不足;所提出的ASD方法引入了推理延迟(约3.7倍);部分模型(如video-SALMONN2+)基线幻觉已很低,方法提升空间有限。

🔗 开源详情

  • 代码:https://github.com/kaistmm/crossmodal-hub
  • 模型权重
  • 数据集
    • VGGSound: 论文使用了其测试集子集。这是一个公开的音频-视觉数据集,可通过其官方网站获取:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/
    • AudioSet: 论文使用了其子集。这是由 Google 发布的公开大规模音视频数据集,可通过官方网站获取:https://research.google.com/audioset/
    • VGGSounder: 论文构建评估基准时引用了这个重新标注的 VGGSound 子集。具体信息可参考相关论文,但论文未提供直接下载链接。
  • Demo:论文中未提及在线演示链接。
  • 复现材料
    • 论文附录(Appendix)提供了详尽的复现细节,包括:
      • Sink Token 定义与选择:详细说明了如何识别全局 sink token,包括使用的维度、阈值等(见附录 A.1)。
      • 数据集构建细节:提供了用于因果追踪和幻觉评估的具体样本数量、类别列表及筛选流程(见附录 A.2)。
      • 算法细节:给出了自适应 Sink 引导解码 (ASD) 算法的完整公式和超参数设置(见附录 A.3)。
      • 基线方法适配:说明了如何将 PAI 和 VCD 方法适配到音视频设置(见附录 A.4)。
    • 这些信息足以支持研究复现,但论文未单独提供训练配置文件或检查点下载页面。复现主要依赖上述代码仓库和模型权重。
  • 论文中引用的开源项目
    1. Qwen2.5-Omni / Qwen3-Omni: 由阿里云通义千问团队发布的多模态大语言模型。
      • 仓库:https://github.com/QwenLM/Qwen2.5-Omni
    2. video-SALMONN / video-SALMONN2+: 由 KAIST 和 ByteDance 等团队发布的音视频大语言模型。
      • 仓库:https://github.com/TMElyralab/Video-SALMONN
    3. VGGSound: 音频-视觉分类数据集。
      • 主页:https://www.robots.ox.ac.uk/~vgg/data/voicelab/vggsound/
    4. AudioSet: 音频事件分类数据集。
      • 主页:https://research.google.com/audioset/
    5. DETR (DEtection TRansformer): 用于目标检测的 Transformer 模型。
      • 仓库:https://github.com/facebookresearch/detr
    6. Sound Event Detection Model (引用为 (Wu et al., 2025)): 用于识别音频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。
    7. Image Segmentation Model (引用为 (Ravi et al., 2025)): 用于识别视频对象 token。论文未提供具体项目名称和链接,仅在参考文献中列出。
    8. LLaMA: 作为一些早期 AVLLM 的基础模型被引用。
      • 仓库:https://github.com/meta-llama/llama
    9. VGGSounder: 对 VGGSound 进行重新标注的评估集,用于构建更全面的 ground-truth。
      • 论文引用来源为 (Zverev et al., 2025),但未提供直接链接。

🏗️ 方法概述和架构

本文的核心方法旨在探明AVLLM中跨模态信息的存储位置,并基于此发现开发一个幻觉缓解策略。整个流程可以分为两个阶段:分析阶段(因果追踪)应用阶段(自适应解码)

1. 分析阶段:单模态主导框架下的因果追踪

  • 整体流程:为了追踪跨模态信息流,研究者首先构建一个“单模态主导”的场景。例如,在“音频主导”场景中,选择音频线索明确而视频线索模糊的样本,使得模型仅凭音频就能做出正确预测。然后,通过三次前向传播(干净运行、破坏运行、修复运行)来量化特定token子集所携带的跨模态信息量。
  • 核心组件
    • 单模态主导框架:这是进行有效追踪的前提条件。论文定义了“音频主导”和“视频主导”两种设置(公式1和2),通过对比模型在多模态输入($\hat{y}{av}$)、单模态输入($\hat{y}{a}$, $\hat{y}_{v}$)下的预测结果来筛选符合条件的样本。这确保了研究的焦点是单一模态向另一模态传递的信息。
    • 因果追踪实验:这是量化信息的核心技术。其流程如图2所示。(1)干净运行:输入完整的音视频信息,获得正确预测。(2)破坏运行:在进入编码器前,将主导模态(如音频)的输入token表示清零,强迫模型仅依赖非主导模态(视频),通常会导致预测错误。(3)修复运行:从干净运行中取出非主导模态(视频)的隐藏状态,替换到破坏运行的对应位置,观察预测的恢复情况。关键设计选择与动机:论文选择在自注意力层之前进行隐藏状态替换(patching),而非之后。其动机是,替换前的状态可以被后续的自注意力机制“看到”,从而将恢复的信息传播给文本token,更有效地影响最终输出。这一设计选择得到了控制实验的验证(附录B.1.2,表8),在该实验中,直接修复主导模态token以获得近乎完美的预测恢复,结果显示“在SA前patching”的IE值远高于“在SA后”或“在MLP后”。
    • 信息量化指标:定义了两个间接效应(Indirect Effect)指标(公式3和4):$IE_{clean}(S)$衡量修复子集$S$后,正确预测概率的恢复程度;$IE_{corrupt}(S)$衡量其压制错误预测的能力。较高的IE值表明子集$S$编码了丰富的跨模态信息。
    • 待验证的token子集:包括:1) 所有非主导模态token(上界);2) 对象token(由外部模型识别);3) 汇聚点token(通过模型内部激活筛选,特别定义了跨层稳定的“全局汇聚点”);4) 随机token(基线)。
  • 数据流与交互:输入音视频数据 -> 编码器生成token -> 在Transformer块中进行追踪实验(替换特定token的隐藏状态)-> 计算输出概率变化(IE值)-> 分析哪些token子集(对象、汇聚点)的IE值最高,从而定位信息枢纽。

2. 发现与深化:跨模态汇聚点的功能异质性

  • 在确认汇聚点是关键信息枢纽后,论文进一步分析汇聚点的内部差异。引入“模态主导分数”(MDS,公式5)来量化每个汇聚点token从视频和音频模态分别接收到的平均注意力权重。MDS值的分布(如图3所示)揭示,即使在同一类汇聚点内,也存在显著差异:有些汇聚点主要接收自身模态的注意力(单模态汇聚点),而另一些则主要接收互补模态的注意力(跨模态汇聚点)。
  • 关键设计选择:基于MDS将汇聚点等分为“单模态汇聚点”和“跨模态汇聚点”两组,并分别进行因果追踪。结果显示(表2),修复“跨模态汇聚点”能获得比修复“单模态汇聚点”高得多的IE值,且其效果与修复全部汇聚点相当。这证明了跨模态汇聚点才是真正的跨模态信息载体。

3. 应用阶段:自适应汇聚点引导解码(ASD)

  • 整体流程:这是一个无需训练的推理时干预方法,旨在通过调整注意力分配来减少因模态冲突导致的物体幻觉。它在解码的每一步动态调整模型对“跨模态汇聚点”和“单模态汇聚点”的关注度。
  • 核心组件
    • 预识别与分类:首先,使用MDS对全局汇聚点进行分类,得到跨模态汇聚点集合($\mathcal{S}{cross}$)和单模态汇聚点集合($\mathcal{S}{uni}$)。
    • 双通路前向传播:在每个解码步$t$,执行两次并行的前向传播:原始通路校准通路。在校准通路中,应用注意力调制公式(公式6和7):增大对$\mathcal{S}{cross}$的注意力权重,减小对$\mathcal{S}{uni}$的注意力权重,调制强度由超参数$\alpha$控制(实验中固定为0.6)。
    • 自适应引导系数:为避免固定调制强度可能带来的副作用,引入了自适应的引导系数$\gamma_t$。其计算基于原始通路中注意力分配的风险(即对单模态汇聚点的注意力占比,公式9)。具体而言,基础引导系数$\gamma_{t}^{\text{base}}$定义为单模态汇聚点平均注意力占总汇聚点注意力的比例。随后,通过阈值门控(当基础系数低于阈值$\tau$或文本注意力质量$r_t$高于阈值$\rho$时,$\gamma_t$置零)和动量平滑(公式16)得到最终的$\gamma_t$。当检测到模型可能过度关注易引发幻觉的单模态汇聚点时,$\gamma_t$增大,使得生成更多地依赖经过校准的、更倾向于跨模态信息的分布(公式8)。
  • 数据流与交互:输入音视频及前文-> 原始通路生成原始token概率分布$P_{orig}$;同时校准通路生成调整后的概率分布$P_{cali}$ -> 根据自适应系数$\gamma_t$对两个分布进行加权组合,得到最终的采样分布$\tilde{P}$ -> 从$\tilde{P}$中采样下一个token。

Figure 2: Causal Tracing under the Unimodal Dominance Framework 图2说明:该图清晰地展示了因果追踪的三步流程。以“音频主导”为例:a) 干净运行使用完整输入;b) 破坏运行将音频输入清零,模型仅靠视频输入预测(易出错);c) 修复运行将干净运行中的视频token隐藏状态替换回破坏运行的对应位置,观察预测的恢复。这一框架是定位跨模态信息流的实验基础。

Figure 3: Layer-wise MDS of audio and video sink tokens 图3说明:该图可视化了Qwen2.5-Omni(7B)中视频和音频汇聚点token的模态主导分数(MDS)。MDS为正表示视频注意力占优,为负表示音频注意力占优。图中可见,无论是在音频汇聚点还是视频汇聚点内部,MDS值分布广泛,存在MDS接近0(平衡)和MDS绝对值较大(偏向某一模态)的token,直观证明了汇聚点功能异质性的存在。

💡 核心创新点

  1. 提出“单模态主导”因果追踪框架:针对AVLLM双向信息流的复杂性,创新性地设计了基于“单模态主导”条件的因果追踪实验范式。该框架能有效隔离并测量从一个模态流向另一个模态的信息,是分析AVLLM跨模态交互的有效工具。
  2. 揭示“跨模态汇聚点”的功能异质性:超越了“汇聚点存储全局信息”的普遍认知,首次在AVLLM中证明汇聚点并非同质。通过MDS指标和对比实验,明确区分并证实了“跨模态汇聚点”才是承载跨模态信息的核心功能子集,深化了对注意力机制在多模态模型中作用的理解。
  3. 提出基于可解释性发现的无训练幻觉缓解方法(ASD):将机制分析的发现直接转化为实用工具。ASD方法通过动态调整对“跨模态汇聚点”和“单模态汇聚点”的注意力,针对性地缓解因模态冲突导致的物体幻觉,实现了“理解-改进”的闭环,方法简单且效果显著。
  4. 对AVLLM内部机制的系统性可解释性研究:在文本和视觉语言模型之外,为理解更复杂的音频-视觉语言模型的内部工作机制提供了系统性的实证研究范例,填补了该领域的部分空白。

📊 实验结果

论文的实验主要分为两部分:一是用于定位信息枢纽的因果追踪实验,二是验证所提幻觉缓解方法ASD的效果实验。

1. 因果追踪实验(表1,表2) 在五个AVLLM上,针对“音频主导”和“视频主导”场景,比较了修复不同token子集后的间接效应(IE)。

表1:不同token集合的补丁结果

模态补丁策略Qwen2.5-Omni(7B)Qwen2.5-Omni(3B)video-SALMONN-o1(7B)video-SALMONN2+(7B)video-SALMONN2+(3B)
IE_cleanIE_corrupt#TokensIE_cleanIE_corrupt
音频主导All9.615.2814407.833.48
Object5.042.446133.531.12
Sink (N=2)6.242.946036.992.70
Sink (N=3)4.311.943626.362.08
Sink (N=4)3.261.232565.501.64
Random (N=2)4.242.376034.051.20
Random (N=3)2.971.553622.710.72
Random (N=4)1.930.872561.870.65
视频主导All8.2113.632492.438.85
Object4.978.441491.596.41
Sink (N=2)5.478.541442.076.87
Sink (N=3)4.407.12861.625.88
Sink (N=4)3.106.28601.104.78
Random (N=2)4.566.831441.225.29
Random (N=3)2.703.62860.944.34
Random (N=4)1.862.30600.583.46
  • 关键结论:表1显示,在大多数模型和场景下,修复汇聚点token(尤其是N=2时)的IE值接近甚至超过对象token和随机token,表明跨模态信息主要编码在汇聚点中。

表2:单模态和跨模态token集合的补丁结果

模态补丁策略Qwen2.5-Omni(7B)Qwen2.5-Omni(3B)video-SALMONN-o1(7B)video-SALMONN2+(7B)video-SALMONN2+(3B)
IE_cleanIE_corrupt#TokensIE_cleanIE_corrupt
音频主导Sink (N=2)6.242.946036.992.70
Unimodal (N=2)0.650.233010.890.31
Crossmodal (N=2)5.582.953016.572.33
Sink (N=3)4.311.943626.362.08
Unimodal (N=3)0.920.391811.020.18
Crossmodal (N=3)3.541.521815.731.85
Sink (N=4)3.261.232565.501.64
Unimodal (N=4)0.710.361281.070.32
Crossmodal (N=4)2.700.991284.901.28
视频主导Sink (N=2)5.478.541442.076.87
Unimodal (N=2)1.933.54720.353.43
Crossmodal (N=2)3.034.53721.254.48
Sink (N=3)4.407.12861.625.88
Unimodal (N=3)1.723.19430.313.15
Crossmodal (N=3)2.153.70431.014.11
Sink (N=4)3.106.28601.104.78
Unimodal (N=4)1.272.80300.242.77
Crossmodal (N=4)1.453.02300.633.57
  • 关键结论:表2清晰地显示,修复“跨模态汇聚点”带来的IE值提升远高于修复“单模态汇聚点”,且效果与修复所有汇聚点相当,证明了跨模态汇聚点的核心作用。

2. 幻觉缓解实验(表3,图6) 在Qwen2.5-Omni(7B)和video-SALMONN-o1(7B)上,评估ASD方法在减少物体幻觉方面的效果。

表3:ASD的定量结果

数据集方法Qwen2.5-Omni(7B)video-SALMONN-o1 (7B)
ALOHa ↑C_S ↓C_I ↓F1 ↑ALOHa ↑C_S ↓C_I ↓F1 ↑
VGGSound-AnimalVanilla40.7148.2137.1355.2436.2137.7432.0953.68
PAI39.5251.2438.1155.1136.9935.2631.1853.16
VCD40.2751.5241.2852.4336.4039.3933.4053.37
ASD42.7736.9134.1552.4443.2925.0725.7150.89
VGGSound-AllVanilla35.0230.7020.6758.6932.7430.6322.3953.40
PAI34.6832.2121.5258.4732.4429.2922.0153.15
VCD34.6032.6322.3657.0930.2830.7624.3150.02
ASD38.8929.6521.7455.8136.6321.1118.4250.10
AudioSetVanilla38.248.9210.9369.7336.8111.3914.9167.27
PAI36.9411.8413.0973.2236.0510.9514.5467.64
VCD36.9812.2814.8871.1232.509.3412.5267.74
ASD38.328.5410.2072.9839.646.579.5067.29
  • 关键结论:ASD方法在所有数据集和指标上均优于基线方法(包括Vanilla和其他适应后的方法)。在幻觉问题最突出的VGGSound-Animal数据集上,改进尤为显著。例如,在video-SALMONN-o1上,句子级幻觉率C_S从37.74%大幅降至25.07%。图6的参数敏感性分析表明,ASD在$\alpha$取值0.4-0.8范围内都能稳定地降低幻觉指标,但过大的$\alpha$可能导致描述丰富度(F1分数)下降。

Figure 6: Parameter sensitivity of α with CHAIR metrics Figure 6b: Parameter sensitivity of α with CHAIR metrics 图6说明:此图展示了超参数$\alpha$对两种模型幻觉指标(CHAIR的C_S和C_I)的影响。曲线表明,在较宽的$\alpha$范围内(如0.4到0.8),ASD都能有效降低幻觉率,证明了方法的鲁棒性。然而,当$\alpha$过大时,幻觉率可能反弹或描述丰富度下降,这提示了在抑制幻觉与保持生成细节之间存在权衡。

🔬 细节详述

  • 训练数据:论文是分析性工作,不涉及模型训练。分析和实验所使用的数据如下:
    • 因果追踪数据:基于VGGSound测试集构建。从20个音频主导类别和20个视频主导类别中各选取1000个样本,并根据公式1和2的预测一致性进行筛选,最终每个模型保留了数百到上千个样本(见表5)。
    • 幻觉缓解评估数据:使用了三个数据集:1) VGGSound-Animal:从VGGSounder中筛选出的约360个干净的单一动物类别样本;2) VGGSound-All:约1200个包含多标签的VGGSound样本;3) AudioSet:来自(Chen et al., 2025)的约680个干净样本。
  • 损失函数:不适用(分析性工作)。
  • 训练策略:不适用(分析性工作)。
  • 关键超参数
    • 汇聚点选择:全局汇聚点定义为在所有层中作为汇聚点出现频率最高的Top-K个token,$K = |\mathcal{T}|/N$,其中$|\mathcal{T}|$是输入序列长度,$N$是归一化常数,实验中$N \in {2, 3, 4}$。识别汇聚点的阈值$\tau$和维度$\mathcal{D}_{sink}$见表4。
    • ASD方法:核心超参数是注意力调制强度$\alpha$,实验中固定为0.6。自适应引导系数$\gamma_t$的计算涉及多个参数:最大引导尺度$\gamma_{max}=0.6$,自适应门控阈值$\tau=0.6$,文本注意力质量阈值$\rho=0.5$,动量系数$\beta=0.7$,数值稳定常数$\epsilon$(公式14)。
  • 训练硬件:论文中未提供训练硬件信息(因本研究为分析性工作,不涉及新模型训练)。
  • 推理细节
    • ASD推理:在每个解码步骤执行两次前向传播(原始通路和校准通路),然后按公式8进行加权组合。这导致了约3.7倍的推理延迟(附录B.2.5)。
    • 因果追踪推理:需要进行多次前向传播(干净、破坏、修复)以计算IE值。
  • 正则化或稳定训练技巧:不适用。

⚖️ 评分理由

创新性:2.5/3 论文问题设定新颖,聚焦于AVLLM这一前沿但内部机制不明的领域。提出的“单模态主导”因果追踪框架具有方法论上的应用创新,能有效隔离研究跨模态信息流。最关键的洞察在于发现了“跨模态汇聚点”的功能异质性,这一发现超越了现有对汇聚点的笼统理解。所提出的ASD方法是基于该洞察的直接应用,自适应机制设计合理。然而,其核心技术和方法(因果追踪、MDS、注意力调制)均基于现有工作,创新性主要体现在迁移应用和新发现上,而非方法论的根本性突破。

技术严谨性:1.7/2 方法整体严谨。因果追踪的设计有充分的动机(如选择SA前patching)和对照实验(表8,附录B.1.2)。MDS指标定义清晰,用于功能分类具有说服力。ASD算法设计完整,包含了稳定性措施。不足之处在于:1) 跨模态汇聚点的定义依赖于MDS的简单二分法(等分),这或许过于简化,可能忽略了更复杂的连续分布或聚类;2) 在消融实验(图6)中,仅展示了ASD对幻觉指标和描述丰富度的影响,但未深入分析其可能对其他下游任务(如多模态理解、问答)性能的影响边界。

实验充分性:1.5/2 实验非常充分。在五个不同的开源AVLLM上验证了核心发现,覆盖了不同架构和规模。消融实验(不同token类型、不同N值、不同patching位置、参数敏感性、替代腐蚀方法等)全面。幻觉缓解实验选择了针对性的基准(VGGSound-Animal)和通用基准(VGGSound-All, AudioSet),并与多个基线(PAI, VCD, AVCD, FMD)进行了对比。结果表格详实,数字清晰。主要短板是所有分析和ASD验证都基于“分类”或“字幕生成”任务,且多选题设置对于理解开放式生成任务的泛化能力有限。

清晰度:0.8/1 论文写作非常清晰,结构完整。符号定义明确(如IE, MDS),核心概念(单模态主导、跨模态汇聚点)阐述清楚。图表质量高,直观地支持了主要论点。附录提供了丰富的实现细节和额外分析。轻微扣分点在于,对于非多模态模型解释性领域的读者,部分术语(如sink dimensions)需要依赖背景知识。

影响力:0.7/1 论文对理解和改进AVLLM具有直接的推动作用。提出的“跨模态汇聚点”概念为后续的可解释性研究和模型改进提供了新的抓手。ASD作为一种无需训练的即插即用方法,具有实际应用价值。然而,该工作主要局限于AVLLM这一相对垂直的领域,且ASD方法仅针对字幕生成中的物体幻觉,其发现能否推广到更通用的多模态架构(如包含触觉、嗅觉)和其他任务有待验证。

可复现性:0.7/1 论文提供了代码仓库链接(https://github.com/kaistmm/crossmodal-hub)。从附录看,提供了详细的超参数设置(表4, 公式15,16中的参数)、数据集筛选流程、以及分析工具(如对象和声音事件检测模型)。这为复现核心分析实验提供了较好的基础。但完整的复现指南(如README文件、环境配置、脚本使用说明)的详尽程度未在论文中直接体现,主要依赖读者自行查看代码仓库。

🚨 局限与问题

  1. 论文明确承认的局限(附录D):

    • 由于内存限制,未能在更大规模的模型(如Qwen3-Omni 30B)上验证发现的可扩展性。
    • 所提出的ASD方法目前仅适用于字幕生成任务,无法直接推广到通用的问答等任务。
    • ASD方法引入了不可忽视的推理延迟(约3.7倍),可能限制其在实时应用中的部署。
  2. 审稿人发现的潜在问题

    • 实验范式的代表性:用于因果追踪验证的“多选题”设置虽然有助于构建受控实验,但其是否能完全代表模型在开放式生成中处理跨模态冲突的机制,仍需进一步验证。模型在生成自由文本时可能使用不同于选择题的注意力策略。
    • ASD方法的过度干预与边界风险:虽然论文通过自适应系数和消融实验展示了方法的鲁棒性,但基于注意力的人工干预可能破坏模型内在的平衡,导致未预料的退化(如在某些需要依赖单模态线索的场景)。论文缺少对这类边界情况的系统分析。此外,Reverse ASD实验(附录B.2.3)显示性能退化并非与改进完全对称,暗示了干预可能并非在所有状态下都有效。
    • 分析深度:论文主要从注意力权重的角度进行分析和干预。然而,跨模态信息的集成可能发生在MLP层或其他组件中(尽管表8显示SA前patching更优)。一个更深入的问题是:跨模态汇聚点是否以及如何与模型的其他部分(如文本生成头)交互来最终影响输出?当前的分析停留在“存储位置”,对“使用机制”的探讨较少。
    • 部分模型结果:在video-SALMONN2+系列模型上,ASD方法带来的提升相对较小(因为其基线幻觉已很低)。这虽然在论文中提及,但也暗示了该方法可能更适用于“有显著模态冲突且模型尚未很好处理”的模型,其普适性价值需要更广泛的评估。

← 返回 2026-05-12 论文速递