📄 AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression

#多模态模型 #模型压缩

8.4/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

🔥 8.4/10 | 前25% | #多模态模型 | #模型压缩 | arxiv

👥 作者与机构

作者:Yijing Chen, Wenhui Tan, Xiaoyi Yu, Yuyue Wang, Xin Cheng, Kaisi Guan, Hao Jiang, Xiangyang Li, Guojie Zhu, Ruihua Song 机构:中国人民大学高瓴人工智能学院,华为技术有限公司

💡 毒舌点评

这篇论文的切入点非常讨巧,把“压缩”这件事包装成了高大上的“检索问题”,瞬间理论深度就上来了。三个标准(相关性、重要性、多样性)的设计也环环相扣,尤其是针对时序数据魔改的TA-MMR,确实解决了传统MMR在视频上的硬伤。实验部分做得很“足”,从宏观性能到微观检索(AV-NIAH)都覆盖了,数据也亮眼,尤其是把同为压缩方法的OmniZip按在地上摩擦。但是,作者似乎对自己方法的“离线”属性过于“坦然”,承认了就完事了,也不想想实时场景怎么办。另外,所有实验都在一个7B左右的模型上做,这模型扩展到70B或者压缩到1B还能work吗?心里没底。消融实验虽然做了,但有点“走过场”,三个模块去掉谁性能都掉一点,但掉得都不算惊心动魄,没能让我们更深刻地理解它们之间到底是“铁三角”还是“塑料姐妹花”。总之,是一篇很工整、很有效的顶会风格论文,但离那种让人拍案叫绝的突破性工作,还差那么点意思。

📌 核心摘要

本文针对现有多模态大语言模型在长时程(小时级)音视频理解中面临的上下文窗口限制与信息冗余两大挑战,提出了AVOC框架。AVOC的核心创新在于引入一个置于模态编码器与LLM骨干之间的可学习token压缩模块。该模块的关键思想是将多模态token压缩重新定义为一个信息检索中的top-\(K\)检索问题。在此框架下,模块依据三个经典检索标准设计机制:1)查询相关性(Relevance),通过文本引导的交叉注意力评分,确保所选token与用户查询相关;2)查询无关重要性(Importance),通过双向视频-音频交叉注意力在时序块内评分,捕捉与查询无关但内在重要的信息;3)结果多样性(Diversity),通过创新的时序感知最大边际相关性(TA-MMR)选择,抑制冗余并保留时序上分散的相似事件。通过这三个机制的协同,AVOC在固定token预算下为LLM筛选出信息密集的token子集。实验证明,AVOC在多个长时程音视频基准测试上取得了最优性能,并在自建的音视频针入大海(AV-NIAH)评估中展现出在长达一小时的内容上强大的细粒度检索能力。

🔗 开源详情

  • 代码:论文提供了开源代码仓库链接:https://github.com/XiaoChen-AAIR/AVOC。
  • 模型权重:论文未提及提供预训练压缩模块或完整模型的权重下载链接。
  • 数据集:论文提到了以下数据集名称,用于训练和评估,但未提供具体下载链接或开源协议。
    • 训练数据集:AVSD, How2, FineVideo, ChronusAV, LongVILA_sft。
    • 评估基准:WorldSense, OmniVideoBench, LVOmniBench。
    • 自建评估集:Audio-Video Needle-in-a-Haystack (AV-NIAH),其构建基于LVOmniBench中的长音视频片段。
  • Demo:论文未提及。
  • 复现材料:论文提供了具体的训练配置、超参数设置和实现细节,可作为复现依据,具体如下:
    • 模型基础:基于 MiniCPM-o 4.5 架构,使用其预训练检查点初始化,压缩模块随机初始化。
    • 训练数据:共40k样本,来自AVSD、How2、FineVideo、ChronusAV和LongVILA_sft。
    • 训练阶段:
      • Stage 1:禁用压缩模块,在20k样本上微调LLM,学习率为5e-6。
      • Stage 2:启用压缩模块,与LLM在剩余20k样本上联合训练,压缩模块学习率为5e-5,LLM学习率为5e-6。
    • 数据预处理:视频按1 FPS采样(≤320秒)或均匀采样320帧(>320秒),音频全量输入。
    • 压缩模块配置:训练时token保留比例 \(\rho\) 从0.1到1.0随机采样。可微分Top-k通过Gumbel-Softmax(温度为1.0)实现。TA-MMR训练时禁用。
    • 推理设置:全局token预算 \(K=10240\)(AV-NIAH任务中为 \(K=25000\)),模态分配比例 \(K_{video}:K_{audio}=2:1\),TA-MMR多样性权重 \(\lambda=0.15\),局部时间窗口半径 \(W=3\)。
    • 超参数调优:论文提供了TA-MMR超参数 \(\lambda\) 和 \(W\) 的消融实验结果(图4),以及模态分配比例的消融结果(图5)。
  • 论文中引用的开源项目:
    • MiniCPM-o 4.5:作为AVOC的基础模型架构。论文中未提供具体链接。
    • Gumbel-Softmax:用于实现可微分Top-k选择。论文中未提供具体代码链接。
    • Qwen3-TTS:用于生成音频针(Audio Needle)的文本转语音。论文中未提供具体链接。

🏗️ 方法概述和架构

AVOC的总体架构如图2所示,其核心是一个位于模态编码器(视觉编码器和音频编码器)与大语言模型骨干之间的动态压缩模块。该模块的设计哲学源于信息检索(IR),将压缩过程建模为从大量多模态候选token中,根据用户文本查询和固定预算,检索出最具信息量的top-\(K\)个token子集的过程。

整个流程分为三个顺序执行的阶段:

  1. 问题形式化与新视角:首先,视频和音频流分别被编码并按时长分组为时序块,每个块内拼接相同时间窗口的视频和音频token,形成交织的多模态token序列 \(X = \{x_1, ..., x_N\}\),每个token带有时间块索引 \(\tau_i\) 和模态标签 \(m_i \in \{V, A\}\)。给定文本查询 \(T\) 和固定预算 \(K < N\),目标是从 \(X\) 中选择一个大小为 \(K\) 的子集 \(S\)。这被明确地表述为一个top-\(K\)检索问题,从而可以借鉴IR中成熟的设计原则。

  2. 第一阶段:相关性评分(Relevance Scoring):此阶段实现查询条件相关性标准,计算每个token与用户查询的相关性分数。具体地,通过文本引导的交叉注意力机制(Text-Guided Cross-Attention Scoring)实现。设所有多模态token的嵌入为 \(E_{va} \in \mathbb{R}^{N \times d}\),文本查询的嵌入为 \(E_{text} \in \mathbb{R}^{N_{text} \times d}\)。通过可学习的投影矩阵 \(W_q^{rel}, W_k^{rel}\) 将它们分别投影到查询空间和键空间:

    \[Q_{text} = E_{text} W_q^{rel}, \quad K_{va} = E_{va} W_k^{rel}.\]

    计算缩放点积注意力分数矩阵 \(A^{rel} = \frac{Q_{text} \cdot K_{va}^T}{\sqrt{d}}\)。每个token \(x_i\) 的相关性分数是其从所有文本token接收的注意力分数的平均值:

    \[\text{score}_{rel}(x_i) = \frac{1}{N_{text}} \sum_j A^{rel}_{j, i}.\]
  3. 第二阶段:重要性评分(Importance Scoring):此阶段实现查询无关重要性标准,估计每个token的内在信息量,作为相关性分数的补充。通过视频-音频双向交叉注意力评分(Video-Audio Cross-Attention Scoring)实现。在每个时序块内,对模态 \(m\) 和其对立模态 \(\bar{m}\),通过可学习投影矩阵 \(W_q^{imp}, W_k^{imp}\) 计算双向交叉注意力 \(A_{\bar{m}m} = \frac{Q_{\bar{m}} K_m^T}{\sqrt{d}}\)。每个token \(x_i\) 的重要性分数是其从同一时序块内对立模态的所有token接收的注意力分数的平均值:

    \[\text{score}_{imp}(x_i) = \frac{1}{N_{\bar{m}_i}} \sum_j (A_{\bar{m}_i m_i})_{j, i}.\]

    为了融合两个来源的分数,首先对每种评分方法和模态内的分数进行Z-score归一化,得到 \(\text{score}'_{rel}(x_i)\) 和 \(\text{score}'_{imp}(x_i)\),然后取其平均值得到最终的综合分数:

    \[\text{score}(x_i) = \frac{1}{2} \left( \text{score}'_{rel}(x_i) + \text{score}'_{imp}(x_i) \right).\]
  4. 第三阶段:多样性选择(Diversity Selection):基于综合分数进行纯贪心选择会导致严重的冗余,因为高分token在连续的、相似的时序片段中聚集。因此,引入结果多样性标准,采用启发式重排序进行多样性感知的选择。经典的最大边际相关性(MMR)公式为 \(\text{MMR}(x_i) = (1-\lambda) \cdot \text{score}(x_i) - \lambda \cdot \max_{x_{i'} \in S_{select}} \text{sim}(x_i, x_{i'})\),但它是时间无关的,会错误抑制时序上距离远但语义相似的事件。为此,作者提出了时序感知最大边际相关性(TA-MMR),将新颖性计算约束在局部时间窗口内:

    \[\text{TA-MMR}(x_i) = (1-\lambda) \cdot \text{score}(x_i) - \lambda \cdot \max_{x_{i'} \in S_{select} \cap \text{Window}(\tau_i)} \text{sim}(x_i, x_{i'}),\]

    其中 \(\text{Window}(\tau_i) = [\tau_i - W, \tau_i + W]\) 是以当前时间索引 \(\tau_i\) 为中心、半径为 \(W\) 的局部窗口,\(\text{sim}(\cdot, \cdot)\) 是均值中心化的余弦相似度,且仅在相同模态的token间计算。

    给定总预算 \(K\),将其按固定比例分配给视频和音频(\(K_{video}, K_{audio}\))。在每个模态内,使用TA-MMR目标函数迭代地贪心选择 \(K_m\) 个token,最终合并两个模态的选择结果,并按时间顺序排序后输入LLM。值得注意的是,TA-MMR因其贪心迭代特性,在训练阶段被禁用,仅在推理时激活。

图1

图2

💡 核心创新点

  1. 问题重构与理论框架:将多模态token压缩这一工程问题,创新性地重构为信息检索中的top-\(K\)检索问题。这一视角的转变不仅为模型设计提供了清晰、模块化的框架(评分-重排序),而且使得利用IR领域成熟的理论(相关性、重要性、多样性)成为可能,极大地增强了方法的可解释性。
  2. 针对性机制设计:为IR的三个经典标准设计了具体、可学习的实现机制。特别是,为解决传统MMR在长时序数据上的偏差问题,提出了时序感知最大边际相关性(TA-MMR)。TA-MMR通过限制冗余惩罚仅发生在局部时间窗口内,巧妙地抑制了相邻冗余,同时保留了时序上分散的相似语义事件,这一设计对长视频理解至关重要。
  3. 高效可扩展的模块化设计:提出的压缩模块是轻量级、即插即用的,可与现有OMLLMs骨干(如MiniCPM-o)集成。实验证明其计算开销小,能显著降低LLM预填充延迟,为扩展模型处理超长音视频的能力提供了实用且高效的解决方案。

📊 实验结果

AVOC在多个长时程音视频理解基准测试上取得了当前最优性能,具体数据如下:

表1:长时程音视频理解基准测试性能对比(准确率%)。所有模型使用7-8B规模LLM骨干。

方法WorldSense (up to 10min)OmniVideoBench (up to 30min)LVOmniBench (up to 90min)Avg.
Avg. (10,30] minAvg.Medium
VideoLLaMA2-7B25.428.329.226.8
Baichuan-Omni-1.5-32.430.7-
HumanOmni-7B47.129.330.5-
Qwen2.5-Omni-7B45.426.729.329.9
video-SALMONN 2+ 7B50.934.637.430.2
MiniCPM-o 2.644.326.229.733.8
MiniCPM-o 4.550.331.636.934.1
OmniZip46.332.336.131.8
AVOC (Ours)52.639.842.341.3
\(\Delta\) over 2nd-best+1.7+5.2+4.9+7.2

表2:AVOC压缩组件的消融研究。TGS:文本引导交叉注意力评分;VAS:视频-音频交叉注意力评分;TA-MMR:时序感知最大边际相关性。

变体组件OmniVideoBenchLVOmniBench
TGSVASTA-MMR
随机选择
w/o TGS
w/o VAS
w/o TA-MMR
AVOC (full)

AV-NIAH评估结果:图3和图6展示了在长达一小时(3600秒)的音视频中检索“针”的结果。AVOC在全部时长-深度网格上保持了高准确率,仅有轻微下降。相比之下,骨干模型MiniCPM-o 4.5在约300秒后性能崩溃;Qwen2.5-Omni在1500-2500秒后显著退化;OmniZip在3000秒后性能明显下降。这证明了AVOC在超长上下文中进行精细信息定位的鲁棒性。

效率分析:表3显示了与骨干模型MiniCPM-o 4.5的延迟对比。即使不压缩(\(\rho=1.0\)),AVOC的压缩模块也仅增加约1.8秒开销。当压缩比\(\rho=0.5\)和\(0.1\)时,预填充延迟从4.453秒分别降至2.088秒和0.497秒,实现了近9倍的加速。

表3:AVOC与其骨干模型MiniCPM-o 4.5的延迟对比(\(\rho\)为token保留率)。

模型\(\rho\)Time to First Token (s)Prefilling (s)Compression Module (s)
MiniCPM-o 4.526.271 ± 0.1464.453 ± 0.002
AVOC1.028.226 ± 0.2374.442 ± 0.0041.834 ± 0.007
0.525.015 ± 0.1052.088 ± 0.0020.929 ± 0.003
0.122.549 ± 0.1960.497 ± 0.0010.260 ± 0.001

图3

图4

⚖️ 评分理由

  • 创新性 (1.6/2):将多模态压缩重构为检索问题的视角新颖且有效,TA-MMR针对时序数据的改进具有独创性和实用价值。将三个经典IR标准具象化为可学习模块的设计逻辑清晰。属于领域内的显著进步。
  • 技术严谨性 (1.4/1.5):理论框架严谨,从问题定义到模块设计环环相扣。数学描述清晰,TA-MMR的提出有充分的动机(避免时间无关MMR的偏差)。消融实验设计合理。唯一的小遗憾是融合分数时仅用了简单的平均和Z-score,未探讨更优的融合策略。
  • 实验充分性 (1.3/1.5):实验全面,覆盖了从宏观性能(Table 1)到微观能力(AV-NIAH),再到效率分析(Table 3)和多组件消融(Table 2)。在三个主要基准测试上均取得SOTA,对比了包括直接竞争对手在内的多个基线。消融研究验证了每个组件的有效性。不足之处在于仅在一个模型规模上验证,未探索不同压缩率下性能的连续变化曲线。
  • 清晰度 (1.3/1.5):论文结构清晰,动机阐述明确,方法部分图示(图2)与文字描述配合良好,公式定义准确。IR视角的引入使得整体逻辑易于理解。部分细节如训练的两阶段策略、Gumbel-Softmax的实现说明得比较清楚。
  • 影响力 (1.3/1.5):针对长时程音视频理解这一重要挑战,提出了一个有效且易于集成的解决方案。其检索视角的设计可能启发后续工作。在相关领域的社区(如多模态学习、视频理解)中预计会引起关注。但该方法本质上是模型的一个增强插件,其影响力部分依赖于骨干模型。
  • 开源 (1.3/1.5):论文明确提供了开源代码仓库链接(GitHub),基于MiniCPM-o 4.5实现。这对于方法的复现和后续研究至关重要。若能同时开源预训练的压缩模块权重,将更进一步。
  • 可复现性 (1.3/1.5):论文提供了详细的实现细节(训练阶段、学习率、超参数、数据集、预处理流程),结合开源代码,使得主要实验具有很高的可复现性。硬件和软件环境(A800 GPU, BF16, flash-attention2)也有说明。
  • 工程/实践价值 (1.3/1.5):压缩模块计算开销小,能显著降低LLM预填充延迟,这对实际部署中处理长视频至关重要。即插即用的设计便于集成。其离线特性限制了在实时流处理中的应用,但报告的效率数据表明了其在批处理场景下的实用价值。

🚨 局限与问题

除了论文作者承认的局限性(离线操作、单一模型规模验证、固定预算分配),还存在以下潜在问题:

  1. 黑箱性与可解释性局限:尽管框架借鉴了可解释的IR概念,但具体的相关性、重要性评分机制是端到端学习得到的,其内部表示可能难以解读。我们无法直观理解为何某些token被评为高重要性。
  2. TA-MMR的贪心策略与次优性:TA-MMR采用贪心迭代选择,这在组合优化中通常无法保证全局最优解。在非常大的token池中,其性能与更复杂的优化方法相比如何,值得探讨。
  3. 对查询质量的依赖性:相关性评分强依赖于用户查询的质量。对于模糊、宽泛或与核心内容无关的查询,该机制可能会失效,此时重要性评分应占主导,但两者融合的鲁棒性未被充分测试。
  4. 模态分配比例的固化:\(K_{video}:K_{audio}\) 设为固定2:1,虽然消融研究(图5)表明该比例在当前基准上较优,但这是数据集偏向性导致的。面对音频信息占主导的场景(如播客视频、音乐会),该比例可能不再适用。动态分配是一个未解决的挑战。
  5. 训练-推理不一致:TA-MMR仅在推理时使用,训练时使用可微分Top-K(Gumbel-Softmax)。这种不一致可能导致训练时优化的损失函数与推理时实际的选择策略存在偏差,可能影响最终性能。
  6. 竞争性未充分验证:主要与MiniCPM-o系列和OmniZip对比。在长视频理解领域,还有其他压缩方法(如相似性分组、注意力稀疏化),未与这些代表不同技术路线的方法进行比较,削弱了结论的全面性。

📷 论文图片

图5


← 返回 2026-06-24 语音/音乐/音频论文速递