📄 From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

#语音识别 #多模态模型

6.5/10

6.5/10 | 前50% | #语音识别 | #多模态模型 | arxiv

👥 作者与机构

Wish Suharitdamrong, Muhammad Awais, Xiatian Zhu, Sara Atito。 机构:Surrey Institute for People-Centred AI (PAI), University of Surrey, UK;Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey, UK。

💡 毒舌点评

这篇论文在机械可解释性领域做了一个扎实的、系统性的工作,把针对视觉语言模型(VLM)和视频语言模型(VideoLLM)的信息流分析方法扩展到了音频-视觉语言模型(AVLLM)。文章结构清晰,从观察到不可靠的注意力模式入手,到使用因果干预追踪信息流,再到利用新发现提升效率,逻辑链条完整。主要贡献在于填补了AVLLM信息流动机分析的空白,并发现了任务依赖的路由机制。然而,这项工作的“音频”属性略显薄弱。虽然研究对象是多模态,但核心分析方法(注意力消除、token丢弃)和主要发现(顺序流、并行流、汇聚点)在之前的VLM/VideoLLM研究中已有类似报道。论文的增量创新更多体现在应用场景的扩展和验证上,而非方法或理论上的重大突破。此外,结论的普适性受限于所选模型和任务,作者自己也承认开放生成任务可能不同。对于寻求音频领域独有洞见的读者,本文的启发可能有限,其价值更多体现在通用多模态模型的可解释性和效率优化方向上。

📌 核心摘要

本文首次系统研究了音频-视觉大语言模型(AVLLM)内部的信息流动机制。研究者通过注意力消除这一因果干预手段,追踪了音频和视觉信号如何在网络中路由、整合以形成最终预测。主要发现包括:1) 在音频-视觉视频输入中,信息遵循单一的顺序路径:模态信息首先在早中期层进行交互并汇聚到问题token(作为聚合点),随后问题token将信息传递至最后一个token以生成预测,且各模态的贡献比例由任务需求动态调节。2) 在多个交错音视频输入的配置中,信息流动转变为两条并行路径:一条是“候选项+问题->参考项->最后一个token”,另一条是“候选项->选项字母->最后一个token”。3) 后期层的视频注意力尖峰实为由巨大激活值驱动的“视觉注意力池”工件,不传输有用信息。4) 音频、视频及非选项文本token在完成信息传递后,可被丢弃而几乎不影响模型精度,甚至略有提升。这些发现在多个模型(Qwen2.5-Omni, Video-SALMONN2 Plus)和多个数据集(AV-SpeakerBench, WorldSense, AV-Odyssey)上得到验证。基于此,论文提出了一种新的AVLLM效率优化思路:在模型中间层丢弃已传递信息的冗余token。

🔗 开源详情

  • 代码:论文中未提及代码链接,也未说明是否开源。
  • 模型权重:论文中提及所分析的模型为 Qwen2.5-Omni 和 Video-SALMONN2 Plus(3B和7B版本),并在附录C中指出“所有模型均从其官方HuggingFace检查点加载”。但论文正文中未提供具体的模型权重下载链接。
  • 数据集:论文用于实验和分析的数据集包括:
    1. AV-SpeakerBench:一个音频-视觉视频基准测试。
    2. WorldSense:一个包含音频-视觉视频和选择题的基准测试。
    3. AV-Odyssey:一个多输入音频-视觉交错基准测试。 论文在附录D中详细介绍了这些数据集的任务选择和处理方式,但未提供具体的下载链接。
  • Demo:论文中未提及Demo。
  • 复现材料:论文在附录C(实验设置)中提供了详细的实验配置,包括:所用模型、输入处理(如视频采样率2 FPS,最大128帧等)、推理设置(贪婪解码,在单张NVIDIA H100 GPU上进行)以及典型实验运行时间。这些信息可作为复现的参考。
  • 论文中引用的开源项目:论文引用了大量相关工作,以学术引用格式列出,但未提供对应的开源项目主页或代码仓库链接。所提及的主要项目包括 Qwen2.5-Omni、Video-SALMONN2 Plus、AV-SpeakerBench、AV-Odyssey、WorldSense,以及用于分析的工具方法如 Attention Knockout。

🏗️ 方法概述和架构

本文的核心方法是基于因果干预的信息流追踪,主要包括两个关键实验设计:

  1. 注意力消除(Attention Knockout)

    • 目标:量化特定信息路径对模型最终预测的重要性。
    • 原理:在自回归Transformer的语言模型(LLM)部分,通过修改因果注意力掩码\(M\),在指定的连续层窗口(默认窗口大小\(k=7\))内,阻断一组源token(源侧,如视频token)向另一组目标token(目标侧,如问题token)的注意力传递。具体修改为:对于目标集合\(T\)中的所有位置\(i\)和源集合\(S\)中的所有位置\(j\),在指定层\(\ell \in L\),设置\(M^\ell_{i,j} = -\infty\)。
    • 度量指标:计算干预前后模型对正确答案预测概率的相对变化:\(\Delta p = (p_{knockout} - p_{base}) / p_{base}\)。\(p_{base}\)是原始模型预测正确答案的概率,\(p_{knockout}\)是执行注意力消除后的概率。显著的负向\(\Delta p\)表明被阻断的路径对预测至关重要;\(\Delta p \approx 0\)则表明该路径是可有可无的。
    • 路径表示:使用符号\(S \not\to T\)表示阻断从源\(S\)到目标\(T\)的注意力路径。例如,\(Video \not\to Question\)表示阻断问题token关注视频token的路径。对于交错输入,使用\(S \not\leftrightarrow T\)表示双向阻断。
    • 层定位:为定位路径在神经网络中的具体操作层,采用滑动窗口法。在层\(\ell\)周围应用窗口大小为\(k\)的层进行干预,然后扫描所有层\(\ell\),得到\(\Delta p\)随层中心变化的曲线。曲线中的显著下降区间即为该路径活跃的网络层区域。
  2. Token丢弃实验

    • 目标:验证“信息一旦传递完成,原始token即可丢弃”的假设,并探索提升推理效率的可能性。
    • 方法:基于注意力消除实验确定的信息流图景,在特定的中间层(记为\(L_{discard}\))之后,直接从输入序列中移除指定类别的token(如视频token、音频token、非选项问题文本token)。丢弃后,继续进行前向推理并评估模型在准确率上的变化。
    • 层选择依据:对于每种token类型,选择其向后传递信息路径的\(\Delta p\)曲线恢复至基线(即不再显著下降)的层作为\(L_{discard}\)。这标志着该token类型的主要信息传递过程已结束。
    • 评估:不仅在分析所用的任务上测试,还在跨任务(如音视频计数)和跨数据集(WorldSense, AV-Odyssey)上进行泛化验证,并报告推理预填充延迟的减少量。

针对两种输入配置的分析架构:

  • 单一音频-视觉视频输入:输入序列为[系统提示; 视频帧token, 音频token(交替); 问题token]。分析揭示信息流路径为模态 -> 问题 -> 最后一个token
  • 多输入交错配置:输入序列为[系统提示; 候选媒体token; 问题文本token; 参考媒体token; 选项字母token]。分析揭示信息流通过两条并行路径:候选+问题 -> 参考 -> 最后一个token候选 -> 选项字母 -> 最后一个token

实验设置:主要分析在Qwen2.5-Omni(3B和7B)和Video-SALMONN2 Plus(3B和7B)模型上进行。数据集包括AV-SpeakerBench(音频-视觉视频MCQ)、WorldSense(音频-视觉视频MCQ)和AV-Odyssey(多输入交错MCQ)。所有实验仅在模型正确预测的样本上执行,以确保测量的是信息路径被破坏导致的性能下降。实验在单张NVIDIA H100 GPU上使用贪婪解码进行。

图1

图2

💡 核心创新点

  1. 首次系统绘制AVLLM信息流图景:填补了音频-视觉大语言模型内部机制研究的空白,明确了音频和视觉信号在网络中路由、交互和整合的具体路径。
  2. 揭示任务驱动的动态路由机制:发现AVLLM会根据任务需求(如更依赖视觉、听觉或音视频对齐)动态调整各模态信息的贡献比例,这一机制在两种输入配置中均有体现。
  3. 发现并行信息流路径:在多输入交错场景下,不同于单视频的顺序路径,模型采用了两条独立的并行路径处理信息,且每条路径有其自身的后期聚合点。
  4. 提出基于信息流的内部层Token压缩新方向:利用信息流分析的结果,提出在模型中间层(而非输入端)丢弃已传递信息的token,以提升推理效率。该方法简单、有效且具有跨任务/数据集的泛化能力。

📊 实验结果

论文的实验结果主要通过注意力消除曲线和token丢弃性能表来展示。

注意力消除结果(核心发现依据):

  • 模态内/间交互:跨帧注意力(Cross-frame)对几乎所有任务都有贡献。双向跨模态交互(Audio \(\leftrightarrow\) Video)在需要精细音视频对齐的任务(如语音识别、说话人检测)中作用显著,但在其他任务中作用微弱。跨音频片段交互(Cross-audio segment)影响普遍很小。这些交互主要集中在网络的早期到中期层(图3)。
  • 信息流向最终预测的路径:对于单一视频输入,阻断视频或音频直接流向最后一个token(\(Video \not\to Last\), \(Audio \not\to Last\))几乎无影响,而阻断它们流向问题token(\(Video \not\to Question\), \(Audio \not\to Question\))则在中期层导致显著性能下降。阻断问题token流向最后一个token(\(Question \not\to Last\))在后期层造成性能下降。这证实了路径模态 -> 问题 -> 最后一个token(图4)。
  • 多输入交错路径:阻断候选项或问题流向最后一个token(\(Candidates \not\to Last\), \(Question \not\to Last\))影响微弱,而阻断它们流向参考项(\(Candidates \not\to Reference\), \(Question \not\to Reference\))以及阻断参考项流向最后一个token(\(Reference \not\to Last\))则产生显著影响,证实了路径候选+问题 -> 参考 -> 最后一个token(图5)。同时,分析选项字母也证实了路径候选 -> 选项字母 -> 最后一个token(图6)。

Token丢弃结果(效率提升验证): 丢弃不同类型token后的模型准确率及预填充延迟变化总结如下表(数据源自表4):

表4:丢弃多模态token对任务准确率和推理效率的影响。 LL表示丢弃token的层数。多输入结果在参考->候选(I->A, A->I)两个方向报告。括号内数字表示与基线的变化(绿色=提升,红色=下降);下划线表示无变化。最佳值加粗。Sp.:语音;Vis.:视觉;Rec.:识别;Count.:计数;Vid.:视频;Aud.:音频;Transp.:运输;Ques:非选项问题文本;All:所有类型一起。

配置 / 任务分析任务跨任务跨数据集平均预填充延迟
视频(AV-SpeakerBench 消融, L=26丢弃视频和音频, L=29丢弃问题; 跨数据集来自WorldSense)Sp. Rec.Vis. Rec.Vis. Count.Sp. Count.
基线50.2546.5843.926.39
丢弃问题50.2546.83 (+0.25)44.39 (+0.49)26.39
丢弃音频50.2547.55 (+0.97)44.39 (+0.49)26.74 (+0.35)
丢弃视频50.75 (+0.50)46.10 (-0.48)43.926.74 (+0.35)
丢弃全部49.75 (-0.50)46.59 (+0.01)42.93 (-0.97)26.04 (-0.35)
多输入(AV-Odyssey 消融, L=25丢弃候选, L=31丢弃参考, L=29丢弃问题)分析任务跨任务平均预填充延迟
配置 / 任务Animal Rec.Bird Rec.Transp. Rec.
基线61.0038.0029.41
丢弃问题62.00 (+1.00)38.0030.39 (+0.98)
丢弃参考63.00 (+2.00)40.00 (+2.00)29.41
丢弃候选63.00 (+2.00)39.00 (+1.00)32.35 (+2.94)
丢弃全部63.00 (+2.00)38.0032.35 (+2.94)

结果显示,在中间层丢弃冗余token后,模型准确率大多保持平稳或略有提升(如在AV-Odyssey上),同时显著降低了预填充延迟(视频设置下从2289秒降��2089秒,多输入设置下从559毫秒降至531毫秒),验证了该效率优化策略的有效性和泛化性。

图3

图4

🔬 细节详述

  • 评分理由:

    • 创新性 (1.0/2):问题定义重要,但方法(注意力消除、token丢弃)在VLM/VideoLLM中已有应用(Zhang et al., 2025b; Kim et al., 2025)。核心贡献在于首次将此分析框架系统应用于AVLLM,并发现了并行路径等新现象,属于增量式创新而非范式突破。
    • 技术严谨性 (1.2/1.5):使用因果干预(注意力消除)是可解释性领域的严谨方法。实验设计合理,如仅在正确样本上测试、滑动窗口定位、跨模型/数据集验证。但未深入探讨注意力消除本身对模型表示的潜在干扰,且对“汇聚点”涌现的解释(第7节讨论)较为推测性,缺乏更底层的机制分析。
    • 实验充分性 (1.0/1.5):在四个模型实例(两个模型家族,两个规模)和三个数据集上进行了验证,覆盖了单一视频和多输入交错两种关键配置,实验设计(消融、跨任务/数据集)较为充分。局限是分析任务均为MCQ,开放生成任务未验证;模型架构局限(均为基于LLaMA等解码器的类似架构),未涉及编码器-解码器等其他类型AVLLM。
    • 清晰度 (1.3/1.5):论文结构清晰,逻辑递进(从注意力陷阱到因果干预追踪,再到效率应用)。图表(如信息流示意图)直观有助于理解。符号定义(\(S \not\to T\))明确。部分图表(如图3、5、6)较为密集,可进一步优化可读性。
    • 影响力 (0.5/1.5):对AVLLM社区的内部机制理解有直接价值,提出的token丢弃方法为模型效率优化提供了新思路。但对于更广泛的语音领域(如语音合成、语音增强)读者,本文提供的直接洞见有限,其影响力主要局限于多模态模型理解与优化这一交叉方向。
    • 开源 (0.0/1):论文未提供代码、模型权重(仅提及使用官方检查点)或数据集的公开链接,严重限制了研究的可复现性和社区贡献。附录中的实验细节(如参数设置)无法完全弥补这一缺陷。
    • 可复现性 (0.3/1):虽然论文提供了详细的实验设置(模型版本、输入处理、推理参数、典型运行时间)和数据集划分细节(附录D),理论上具备可复现性。但由于缺少开源代码和具体的数据/模型获取链接,实际复现需要较高的额外工作量(如自行下载模型、复现预处理和分析流程),因此评分较低。
    • 工程/实践价值 (0.7/1):提出的中间层token丢弃方法简单、即插即用,且在所测试的任务和数据集上展示了降低预填充延迟的效果,具有明确的工程应用潜力。然而,其性能提升或保持的效果依赖于准确找到每种token信息传递完成的层,这可能需要额外的分析成本;且该方法的广泛适用性(不同架构、不同任务类型)仍需更多验证。
  • 局限与问题:

    • 任务类型局限:分析完全基于多项选择题(MCQ)任务,这类任务的预测是单个token(答案字母)。开放生成任务(如视频描述、对话)可能涉及更复杂的长序列生成,其信息流动路径可能显著不同,作者的结论(如汇聚点、并行流)能否迁移尚不确定。
    • 模型架构局限:验证仅在Qwen2.5-Omni和Video-SALMONN2 Plus两类模型上进行,它们都采用类似“视觉/音频编码器 + 投影层 + 因果Transformer解码器”的架构。结论是否适用于其他架构(如使用交叉注意力的模型、编码器-解码器模型)未可知。
    • “汇聚点”机制解释不足:论文观察到问题token或参考token作为信息汇聚点,但对其涌现的深层原因(为何是这些位置、在训练中如何形成)解释较为表面,主要归因于因果注意力的结构和模态token的对齐,这更像是一种描述而非根本解释。
    • 跨模态交互分析深度:虽然分析了跨模态交互(Audio \(\leftrightarrow\) Video)的位置和重要性,但对于交互的具体机制(是简单的信息复制,还是发生了特征融合或转换)没有进一步探究。
    • 效率验证的局限性:Token丢弃实验展示了预填充延迟的降低,但未详细分析其对模型生成速度(如解码速度)、内存占用的影响。此外,所报告的延迟减少(约8%-10%)虽然存在,但在绝对值上是否具有足够吸引力,可能取决于具体应用场景。

开源详情

  • 代码:论文中未提及代码链接,也未说明是否开源。
  • 模型权重:论文中提及所分析的模型为 Qwen2.5-Omni 和 Video-SALMONN2 Plus(3B和7B版本),并在附录C中指出“所有模型均从其官方HuggingFace检查点加载”。但论文正文中未提供具体的模型权重下载链接。
  • 数据集:论文用于实验和分析的数据集包括:
    1. AV-SpeakerBench:一个音频-视觉视频基准测试。
    2. WorldSense:一个包含音频-视觉视频和选择题的基准测试。
    3. AV-Odyssey:一个多输入音频-视觉交错基准测试。 论文在附录D中详细介绍了这些数据集的任务选择和处理方式,但未提供具体的下载链接。
  • Demo:论文中未提及Demo。
  • 复现材料:论文在附录C(实验设置)中提供了详细的实验配置,包括:所用模型、输入处理(如视频采样率2 FPS,最大128帧等)、推理设置(贪婪解码,在单张NVIDIA H100 GPU上进行)以及典型实验运行时间。这些信息可作为复现的参考。
  • 论文中引用的开源项目:论文引用了大量相关工作,以学术引用格式列出,但未提供对应的开源项目主页或代码仓库链接。所提及的主要项目包括 Qwen2.5-Omni、Video-SALMONN2 Plus、AV-SpeakerBench、AV-Odyssey、WorldSense,以及用于分析的工具方法如 Attention Knockout。

📷 论文图片

图5


← 返回 2026-06-10 语音/音乐/音频论文速递