📄 From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

#语音识别 #多模态模型

6.5/10

✅ 6.5/10 | 前50% | #语音识别 | #多模态模型 | arxiv

👥 作者与机构

Wish Suharitdamrong, Muhammad Awais, Xiatian Zhu, Sara Atito。机构：Surrey Institute for People-Centred AI (PAI), University of Surrey, UK；Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey, UK。

💡 毒舌点评

这篇论文在机械可解释性领域做了一个扎实的、系统性的工作，把针对视觉语言模型（VLM）和视频语言模型（VideoLLM）的信息流分析方法扩展到了音频-视觉语言模型（AVLLM）。文章结构清晰，从观察到不可靠的注意力模式入手，到使用因果干预追踪信息流，再到利用新发现提升效率，逻辑链条完整。主要贡献在于填补了AVLLM信息流动机分析的空白，并发现了任务依赖的路由机制。然而，这项工作的“音频”属性略显薄弱。虽然研究对象是多模态，但核心分析方法（注意力消除、token丢弃）和主要发现（顺序流、并行流、汇聚点）在之前的VLM/VideoLLM研究中已有类似报道。论文的增量创新更多体现在应用场景的扩展和验证上，而非方法或理论上的重大突破。此外，结论的普适性受限于所选模型和任务，作者自己也承认开放生成任务可能不同。对于寻求音频领域独有洞见的读者，本文的启发可能有限，其价值更多体现在通用多模态模型的可解释性和效率优化方向上。

📌 核心摘要

本文首次系统研究了音频-视觉大语言模型（AVLLM）内部的信息流动机制。研究者通过注意力消除这一因果干预手段，追踪了音频和视觉信号如何在网络中路由、整合以形成最终预测。主要发现包括：1) 在音频-视觉视频输入中，信息遵循单一的顺序路径：模态信息首先在早中期层进行交互并汇聚到问题token（作为聚合点），随后问题token将信息传递至最后一个token以生成预测，且各模态的贡献比例由任务需求动态调节。2) 在多个交错音视频输入的配置中，信息流动转变为两条并行路径：一条是“候选项+问题->参考项->最后一个token”，另一条是“候选项->选项字母->最后一个token”。3) 后期层的视频注意力尖峰实为由巨大激活值驱动的“视觉注意力池”工件，不传输有用信息。4) 音频、视频及非选项文本token在完成信息传递后，可被丢弃而几乎不影响模型精度，甚至略有提升。这些发现在多个模型（Qwen2.5-Omni, Video-SALMONN2 Plus）和多个数据集（AV-SpeakerBench, WorldSense, AV-Odyssey）上得到验证。基于此，论文提出了一种新的AVLLM效率优化思路：在模型中间层丢弃已传递信息的冗余token。

🔗 开源详情

代码：论文中未提及代码链接，也未说明是否开源。
模型权重：论文中提及所分析的模型为 Qwen2.5-Omni 和 Video-SALMONN2 Plus（3B和7B版本），并在附录C中指出“所有模型均从其官方HuggingFace检查点加载”。但论文正文中未提供具体的模型权重下载链接。
数据集：论文用于实验和分析的数据集包括：
1. AV-SpeakerBench：一个音频-视觉视频基准测试。
2. WorldSense：一个包含音频-视觉视频和选择题的基准测试。
3. AV-Odyssey：一个多输入音频-视觉交错基准测试。论文在附录D中详细介绍了这些数据集的任务选择和处理方式，但未提供具体的下载链接。
Demo：论文中未提及Demo。
复现材料：论文在附录C（实验设置）中提供了详细的实验配置，包括：所用模型、输入处理（如视频采样率2 FPS，最大128帧等）、推理设置（贪婪解码，在单张NVIDIA H100 GPU上进行）以及典型实验运行时间。这些信息可作为复现的参考。
论文中引用的开源项目：论文引用了大量相关工作，以学术引用格式列出，但未提供对应的开源项目主页或代码仓库链接。所提及的主要项目包括 Qwen2.5-Omni、Video-SALMONN2 Plus、AV-SpeakerBench、AV-Odyssey、WorldSense，以及用于分析的工具方法如 Attention Knockout。

🏗️ 方法概述和架构

本文的核心方法是基于因果干预的信息流追踪，主要包括两个关键实验设计：

注意力消除（Attention Knockout）
- 目标：量化特定信息路径对模型最终预测的重要性。
- 原理：在自回归Transformer的语言模型（LLM）部分，通过修改因果注意力掩码\(M\)，在指定的连续层窗口（默认窗口大小\(k=7\)）内，阻断一组源token（源侧，如视频token）向另一组目标token（目标侧，如问题token）的注意力传递。具体修改为：对于目标集合\(T\)中的所有位置\(i\)和源集合\(S\)中的所有位置\(j\)，在指定层\(\ell \in L\)，设置\(M^\ell_{i,j} = -\infty\)。
- 度量指标：计算干预前后模型对正确答案预测概率的相对变化：\(\Delta p = (p_{knockout} - p_{base}) / p_{base}\)。\(p_{base}\)是原始模型预测正确答案的概率，\(p_{knockout}\)是执行注意力消除后的概率。显著的负向\(\Delta p\)表明被阻断的路径对预测至关重要；\(\Delta p \approx 0\)则表明该路径是可有可无的。
- 路径表示：使用符号\(S \not\to T\)表示阻断从源\(S\)到目标\(T\)的注意力路径。例如，\(Video \not\to Question\)表示阻断问题token关注视频token的路径。对于交错输入，使用\(S \not\leftrightarrow T\)表示双向阻断。
- 层定位：为定位路径在神经网络中的具体操作层，采用滑动窗口法。在层\(\ell\)周围应用窗口大小为\(k\)的层进行干预，然后扫描所有层\(\ell\)，得到\(\Delta p\)随层中心变化的曲线。曲线中的显著下降区间即为该路径活跃的网络层区域。
Token丢弃实验
- 目标：验证“信息一旦传递完成，原始token即可丢弃”的假设，并探索提升推理效率的可能性。
- 方法：基于注意力消除实验确定的信息流图景，在特定的中间层（记为\(L_{discard}\)）之后，直接从输入序列中移除指定类别的token（如视频token、音频token、非选项问题文本token）。丢弃后，继续进行前向推理并评估模型在准确率上的变化。
- 层选择依据：对于每种token类型，选择其向后传递信息路径的\(\Delta p\)曲线恢复至基线（即不再显著下降）的层作为\(L_{discard}\)。这标志着该token类型的主要信息传递过程已结束。
- 评估：不仅在分析所用的任务上测试，还在跨任务（如音视频计数）和跨数据集（WorldSense, AV-Odyssey）上进行泛化验证，并报告推理预填充延迟的减少量。

针对两种输入配置的分析架构：

单一音频-视觉视频输入：输入序列为[系统提示; 视频帧token, 音频token（交替）; 问题token]。分析揭示信息流路径为模态 -> 问题 -> 最后一个token。
多输入交错配置：输入序列为[系统提示; 候选媒体token; 问题文本token; 参考媒体token; 选项字母token]。分析揭示信息流通过两条并行路径：候选+问题 -> 参考 -> 最后一个token 和 候选 -> 选项字母 -> 最后一个token。

实验设置：主要分析在Qwen2.5-Omni（3B和7B）和Video-SALMONN2 Plus（3B和7B）模型上进行。数据集包括AV-SpeakerBench（音频-视觉视频MCQ）、WorldSense（音频-视觉视频MCQ）和AV-Odyssey（多输入交错MCQ）。所有实验仅在模型正确预测的样本上执行，以确保测量的是信息路径被破坏导致的性能下降。实验在单张NVIDIA H100 GPU上使用贪婪解码进行。

💡 核心创新点

首次系统绘制AVLLM信息流图景：填补了音频-视觉大语言模型内部机制研究的空白，明确了音频和视觉信号在网络中路由、交互和整合的具体路径。
揭示任务驱动的动态路由机制：发现AVLLM会根据任务需求（如更依赖视觉、听觉或音视频对齐）动态调整各模态信息的贡献比例，这一机制在两种输入配置中均有体现。
发现并行信息流路径：在多输入交错场景下，不同于单视频的顺序路径，模型采用了两条独立的并行路径处理信息，且每条路径有其自身的后期聚合点。
提出基于信息流的内部层Token压缩新方向：利用信息流分析的结果，提出在模型中间层（而非输入端）丢弃已传递信息的token，以提升推理效率。该方法简单、有效且具有跨任务/数据集的泛化能力。

📊 实验结果

论文的实验结果主要通过注意力消除曲线和token丢弃性能表来展示。

注意力消除结果（核心发现依据）：

模态内/间交互：跨帧注意力（Cross-frame）对几乎所有任务都有贡献。双向跨模态交互（Audio \(\leftrightarrow\) Video）在需要精细音视频对齐的任务（如语音识别、说话人检测）中作用显著，但在其他任务中作用微弱。跨音频片段交互（Cross-audio segment）影响普遍很小。这些交互主要集中在网络的早期到中期层（图3）。
信息流向最终预测的路径：对于单一视频输入，阻断视频或音频直接流向最后一个token（\(Video \not\to Last\), \(Audio \not\to Last\)）几乎无影响，而阻断它们流向问题token（\(Video \not\to Question\), \(Audio \not\to Question\)）则在中期层导致显著性能下降。阻断问题token流向最后一个token（\(Question \not\to Last\)）在后期层造成性能下降。这证实了路径模态 -> 问题 -> 最后一个token（图4）。
多输入交错路径：阻断候选项或问题流向最后一个token（\(Candidates \not\to Last\), \(Question \not\to Last\)）影响微弱，而阻断它们流向参考项（\(Candidates \not\to Reference\), \(Question \not\to Reference\)）以及阻断参考项流向最后一个token（\(Reference \not\to Last\)）则产生显著影响，证实了路径候选+问题 -> 参考 -> 最后一个token（图5）。同时，分析选项字母也证实了路径候选 -> 选项字母 -> 最后一个token（图6）。

Token丢弃结果（效率提升验证）：丢弃不同类型token后的模型准确率及预填充延迟变化总结如下表（数据源自表4）：

表4：丢弃多模态token对任务准确率和推理效率的影响。 LL表示丢弃token的层数。多输入结果在参考->候选（I->A, A->I）两个方向报告。括号内数字表示与基线的变化（绿色=提升，红色=下降）；下划线表示无变化。最佳值加粗。Sp.：语音；Vis.：视觉；Rec.：识别；Count.：计数；Vid.：视频；Aud.：音频；Transp.：运输；Ques：非选项问题文本；All：所有类型一起。

配置 / 任务	分析任务	跨任务	跨数据集	平均预填充延迟
视频（AV-SpeakerBench 消融， L=26丢弃视频和音频， L=29丢弃问题；跨数据集来自WorldSense）	Sp. Rec.	Vis. Rec.	Vis. Count.	Sp. Count.
基线	50.25	46.58	43.9	26.39
丢弃问题	50.25	46.83 (+0.25)	44.39 (+0.49)	26.39
丢弃音频	50.25	47.55 (+0.97)	44.39 (+0.49)	26.74 (+0.35)
丢弃视频	50.75 (+0.50)	46.10 (-0.48)	43.9	26.74 (+0.35)
丢弃全部	49.75 (-0.50)	46.59 (+0.01)	42.93 (-0.97)	26.04 (-0.35)

多输入（AV-Odyssey 消融， L=25丢弃候选， L=31丢弃参考， L=29丢弃问题）	分析任务	跨任务	平均预填充延迟
配置 / 任务	Animal Rec.	Bird Rec.	Transp. Rec.
基线	61.00	38.00	29.41
丢弃问题	62.00 (+1.00)	38.00	30.39 (+0.98)
丢弃参考	63.00 (+2.00)	40.00 (+2.00)	29.41
丢弃候选	63.00 (+2.00)	39.00 (+1.00)	32.35 (+2.94)
丢弃全部	63.00 (+2.00)	38.00	32.35 (+2.94)

结果显示，在中间层丢弃冗余token后，模型准确率大多保持平稳或略有提升（如在AV-Odyssey上），同时显著降低了预填充延迟（视频设置下从2289秒降��2089秒，多输入设置下从559毫秒降至531毫秒），验证了该效率优化策略的有效性和泛化性。

🔬 细节详述

评分理由：
- 创新性 (1.0/2)：问题定义重要，但方法（注意力消除、token丢弃）在VLM/VideoLLM中已有应用（Zhang et al., 2025b; Kim et al., 2025）。核心贡献在于首次将此分析框架系统应用于AVLLM，并发现了并行路径等新现象，属于增量式创新而非范式突破。
- 技术严谨性 (1.2/1.5)：使用因果干预（注意力消除）是可解释性领域的严谨方法。实验设计合理，如仅在正确样本上测试、滑动窗口定位、跨模型/数据集验证。但未深入探讨注意力消除本身对模型表示的潜在干扰，且对“汇聚点”涌现的解释（第7节讨论）较为推测性，缺乏更底层的机制分析。
- 实验充分性 (1.0/1.5)：在四个模型实例（两个模型家族，两个规模）和三个数据集上进行了验证，覆盖了单一视频和多输入交错两种关键配置，实验设计（消融、跨任务/数据集）较为充分。局限是分析任务均为MCQ，开放生成任务未验证；模型架构局限（均为基于LLaMA等解码器的类似架构），未涉及编码器-解码器等其他类型AVLLM。
- 清晰度 (1.3/1.5)：论文结构清晰，逻辑递进（从注意力陷阱到因果干预追踪，再到效率应用）。图表（如信息流示意图）直观有助于理解。符号定义（\(S \not\to T\)）明确。部分图表（如图3、5、6）较为密集，可进一步优化可读性。
- 影响力 (0.5/1.5)：对AVLLM社区的内部机制理解有直接价值，提出的token丢弃方法为模型效率优化提供了新思路。但对于更广泛的语音领域（如语音合成、语音增强）读者，本文提供的直接洞见有限，其影响力主要局限于多模态模型理解与优化这一交叉方向。
- 开源 (0.0/1)：论文未提供代码、模型权重（仅提及使用官方检查点）或数据集的公开链接，严重限制了研究的可复现性和社区贡献。附录中的实验细节（如参数设置）无法完全弥补这一缺陷。
- 可复现性 (0.3/1)：虽然论文提供了详细的实验设置（模型版本、输入处理、推理参数、典型运行时间）和数据集划分细节（附录D），理论上具备可复现性。但由于缺少开源代码和具体的数据/模型获取链接，实际复现需要较高的额外工作量（如自行下载模型、复现预处理和分析流程），因此评分较低。
- 工程/实践价值 (0.7/1)：提出的中间层token丢弃方法简单、即插即用，且在所测试的任务和数据集上展示了降低预填充延迟的效果，具有明确的工程应用潜力。然而，其性能提升或保持的效果依赖于准确找到每种token信息传递完成的层，这可能需要额外的分析成本；且该方法的广泛适用性（不同架构、不同任务类型）仍需更多验证。
局限与问题：
- 任务类型局限：分析完全基于多项选择题（MCQ）任务，这类任务的预测是单个token（答案字母）。开放生成任务（如视频描述、对话）可能涉及更复杂的长序列生成，其信息流动路径可能显著不同，作者的结论（如汇聚点、并行流）能否迁移尚不确定。
- 模型架构局限：验证仅在Qwen2.5-Omni和Video-SALMONN2 Plus两类模型上进行，它们都采用类似“视觉/音频编码器 + 投影层 + 因果Transformer解码器”的架构。结论是否适用于其他架构（如使用交叉注意力的模型、编码器-解码器模型）未可知。
- “汇聚点”机制解释不足：论文观察到问题token或参考token作为信息汇聚点，但对其涌现的深层原因（为何是这些位置、在训练中如何形成）解释较为表面，主要归因于因果注意力的结构和模态token的对齐，这更像是一种描述而非根本解释。
- 跨模态交互分析深度：虽然分析了跨模态交互（Audio \(\leftrightarrow\) Video）的位置和重要性，但对于交互的具体机制（是简单的信息复制，还是发生了特征融合或转换）没有进一步探究。
- 效率验证的局限性：Token丢弃实验展示了预填充延迟的降低，但未详细分析其对模型生成速度（如解码速度）、内存占用的影响。此外，所报告的延迟减少（约8%-10%）虽然存在，但在绝对值上是否具有足够吸引力，可能取决于具体应用场景。

开源详情

代码：论文中未提及代码链接，也未说明是否开源。
模型权重：论文中提及所分析的模型为 Qwen2.5-Omni 和 Video-SALMONN2 Plus（3B和7B版本），并在附录C中指出“所有模型均从其官方HuggingFace检查点加载”。但论文正文中未提供具体的模型权重下载链接。
数据集：论文用于实验和分析的数据集包括：
1. AV-SpeakerBench：一个音频-视觉视频基准测试。
2. WorldSense：一个包含音频-视觉视频和选择题的基准测试。
3. AV-Odyssey：一个多输入音频-视觉交错基准测试。论文在附录D中详细介绍了这些数据集的任务选择和处理方式，但未提供具体的下载链接。
Demo：论文中未提及Demo。
复现材料：论文在附录C（实验设置）中提供了详细的实验配置，包括：所用模型、输入处理（如视频采样率2 FPS，最大128帧等）、推理设置（贪婪解码，在单张NVIDIA H100 GPU上进行）以及典型实验运行时间。这些信息可作为复现的参考。
论文中引用的开源项目：论文引用了大量相关工作，以学术引用格式列出，但未提供对应的开源项目主页或代码仓库链接。所提及的主要项目包括 Qwen2.5-Omni、Video-SALMONN2 Plus、AV-SpeakerBench、AV-Odyssey、WorldSense，以及用于分析的工具方法如 Attention Knockout。

📷 论文图片

← 返回 2026-06-10 语音/音乐/音频论文速递

📄 From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

开源详情#

📷 论文图片#

📎 相关论文