📄 OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
#高效推理
8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5
🔥 8/10 | 前25% | #高效推理 | #高效推理 | arxiv
👥 作者与机构
Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang; Tsinghua University, ByteDance, University of Cambridge
💡 毒舌点评
这篇论文像个扎实的工程师作品:精准定位了一个真实的痛点(音视频LLM长视频推理的内存瓶颈),并给出了一个巧妙且有效的工程解决方案。核心的“扰动感知+模态感知预算分配”组合拳逻辑自洽,实验也足够“暴力”,在多个基准上压倒性地击败了现有训练时基线。然而,它缺乏令人眼前一亮的理论深度,更像是一次出色的系统优化而非范式突破。其开源承诺(代码+模型权重)目前仍停留在“空头支票”阶段,这对于顶会论文的完整性是个减分项。总体而言,这是一篇在特定领域(音视频高效推理)内扎实、有用、但不算革命性的工作。
📌 核心摘要
本文针对音频-视觉大语言模型(av-LLMs)在流式处理长视频时面临的KV缓存内存线性增长瓶颈,提出了OmniMem压缩框架。该方法包含三个核心组件:1) 扰动感知的KV缓存选择机制,通过综合考虑注意力权重(重要性)和余弦相似度(冗余性)来最小化驱逐KV对对模型输出的影响;2) 首个音频-视觉预算分配模块,为音频和视觉模态的KV缓存分配独立的、可动态调整的预算,以解决两者token数量严重不平衡的问题;3) 基于离线校准的层间预算分配策略。此外,论文探索了预算感知微调以进一步提升性能。在video-SALMONN 2+和Qwen2.5-Omni模型上,于VideoMME Long、LVBench等基准的实验表明,OmniMem在相同内存预算下比强基线方法一致提升了2-4%的绝对精度,微调后可再获1-2%的提升。
🔗 开源详情
- 代码:https://github.com/bytedance/SALMONN/tree/omni_mem (论文承诺开源)
- 模型权重:论文中提及将发布微调后的模型检查点(“fine-tuned model checkpoints”),但未提供具体下载链接或平台。
- 数据集:论文评估使用了VideoMME Long, LVBench, LVOmniBench, StreamingBench,但未提供这些数据集的直接下载链接或开源协议信息。
- Demo:论文未提及。
- 复现材料:论文提供了引导提示词(附录B)、关键超参数设置(\(\lambda=0.02\), T=0.2, 微调细节)和图7的预算分布图。但完整的校准集、模型权重缺失。
- 论文中引用的开源项目:InfiniPot-V, StreamMem, HERMES, PyramidKV, SqueezeAttention, LAVa, EvolKV, video-SALMONN 2+, Qwen2.5-Omni, VideoMME, LVBench, LVOmniBench, StreamingBench均未在文中提供具体链接。
🏗️ 方法概述和架构
OmniMem框架旨在流式处理音视频输入时,动态压缩和维护一个固定大小的KV缓存。其核心架构围绕“分离存储、感知选择、预算分配”展开,如图1所示。
双缓存存储架构:OmniMem摒弃了传统方法将所有token的KV对混合存储的做法,而是维护两个独立的KV缓存:一个用于视觉token(记为\(\mathcal{O}_{c}^{(l)}\)),一个用于音频token(记为\(\mathcal{P}_{c}^{(l)}\))。每个新chunk的音频和视觉token计算得到的KV对会分别追加到对应的缓存中。这是实现模态感知预算分配的物理基础。
扰动感知的KV缓存选择(核心选择机制):在缓存超出预算时,需要选择保留哪些KV对。OmniMem提出的\(\psi_k\)评分公式旨在最小化驱逐操作对当前chunk注意力输出的扰动,其得分计算如公式(8)所示:\(\psi_k = a_k^{\lambda} (1 - s_k)\)。
- 重要性度量(\(a_k\)):\(a_k\)是所有查询向量对第\(k\)个key的注意力分数之和(公式(6))。这反映了该KV对在整个当前上下文中被后续层查询的频率,频率越高则越重要。
- 冗余性度量(\(s_k\)):\(s_k\)是第\(k\)个位置的隐藏状态与其相邻位置隐藏状态的余弦相似度的平均值(公式(7))。相似度高意味着信息可被邻近位置替代,冗余性高。
- 组合与归一化:公式通过乘积形式组合两个条件,强调只保留“不冗余且高频使用”的token。超参数\(\lambda\)用于平衡重要性和冗余性度量的量级差异。选择函数保留\(\psi\)分数最高的K个KV对。
音频-视觉预算分配模块(AVBA):此模块解决的核心问题是:在总预算固定时,如何为视觉和音频缓存分别分配多少KV对?AVBA首先设定一个先验视觉/音频token比率\(r\)(论文中固定为5),该比率与具体模型使用的编码器特性有关。然后,它通过计算各模态的可压缩性分数\(\mathcal{C}\)(公式(9), (10))来动态调整实际分配比例\(w_v\)和\(w_a\)。可压缩性分数结合了该模态KV对的注意力分布熵(熵高,重要性分布均匀,难压缩)和平均余弦相似度(相似度高,冗余度高,易压缩)。最终,视觉和音频的预算比例根据它们的可压缩性分数与先验比率的加权来确定(公式(11), (12))。
层间预算分配:在确定各层总预算时,OmniMem利用跨层的可压缩性分数\(\mathcal{C}^{(l)}\)(公式(13))进行分配。可压缩性高的层被分配更多预算。具体分配通过温度参数\(T\)控制的Softmax函数实现(公式(14)),并限制每层预算在\([\mathcal{B}_{min}, \mathcal{B}_{max}]\)范围内。这个预算分布是基于一个小型校准数据集离线计算一次,之后固定使用,无需为每个输入重新计算。
预算感知微调(SFT):作为一种可选增强,OmniMem探索了在压缩预算约束下的微调。微调过程模拟流式推理,但携带隐藏状态而非KV缓存。关键设计是梯度截断反向传播:为节省计算成本,梯度仅回传至最后\(L-l\)层(例如最后18层),而非整个网络。这旨在让模型学习在固定预算内存中更有效地组织和利用信息。


💡 核心创新点
- 首个针对音频-视觉LLM的扰动感知KV缓存选择机制:将注意力重要性与基于隐藏状态相似度的冗余性度量相结合,目标是最小化驱逐对模型输出的影响,相较于依赖外部通用提示的代理查询方法更直接和理论化。
- 首个音频-视觉预算分配模块:明确承认并解决了音频和视觉模态在token数量和信息特性上的巨大不平衡,通过可压缩性度量和先验比率,为两者动态分配独立的缓存预算,防止音频信息被视觉信息淹没。
- 结合离线校准与在线推理的实用框架:提出基于校准集离线确定层间预算分布,同时在线逐chunk进行扰动感知选择和模态预算分配,兼顾了效果与推理时的可行性。
- 探索预算约束下的微调策略:提出了带有梯度截断的微调方案,使LLM骨干网络适应在固定、模态分离的内存预算下工作,为训练时方法提供了补充。
📊 实验结果
主要长视频理解基准结果 (Table 1):
| Models | Methods | Video-MME long | LVBench | LV-Omni-Bench |
|---|---|---|---|---|
| video-SALMONN 2+ (8B) | Uniform | 64.6 | 47.4 | 38.8 |
| InfiniPot-V | 64.5 | 47.7 | 39.0 | |
| StreamMem | 65.1 | 50.3 | 40.5 | |
| HERMES | 65.0 | 49.8 | 40.2 | |
| OmniMem (ours) | 69.6 | 53.3 | 42.5 | |
| OmniMem + SFT (ours) | 70.2 | 55.7 | 43.1 | |
| video-SALMONN 2+ (4B) | Uniform | 59.9 | 46.1 | 36.6 |
| InfiniPot-V | 60.6 | 46.8 | 37.5 | |
| StreamMem | 61.9 | 47.1 | 37.5 | |
| HERMES | 61.6 | 47.3 | 37.2 | |
| OmniMem (ours) | 64.4 | 50.3 | 39.8 | |
| OmniMem + SFT (ours) | 65.2 | 54.4 | 40.7 | |
| Qwen-2.5-Omni (7B) | Uniform | 50.1 | 37.1 | 32.6 |
| InfiniPot-V | 50.3 | 37.3 | 32.9 | |
| StreamMem | 49.8 | 37.6 | 32.8 | |
| HERMES | 50.5 | 37.5 | 32.8 | |
| OmniMem (ours) | 51.9 | 38.8 | 34.3 |
在video-SALMONN 2+ (8B)上,OmniMem在VideoMME long、LVBench和LV-Omni-Bench上分别比最佳基线(HERMES或StreamMem)高出4.5%、3.0%和2.2%。微调后进一步提升,在LVBench上提升高达5.4%。在4B模型和Qwen-2.5-Omni上也有一致提升。
流式理解基准结果 (Table 2):
| Methods | Realtime | Omni-source | Contextual |
|---|---|---|---|
| video-SALMONN 2+ (8B) | |||
| StreamMem | 77.6 | 56.5 | 39.7 |
| HERMES | 77.9 | 57.8 | 40.1 |
| OmniMem (ours) | 78.5 | 60.9 | 40.7 |
| video-SALMONN 2+ (4B) | |||
| StreamMem | 77.1 | 51.6 | 35.7 |
| HERMES | 77.3 | 51.7 | 36.6 |
| OmniMem (ours) | 77.5 | 58.9 | 37.7 |
| Qwen-2.5-Omni (7B) | |||
| StreamMem | 68.1 | 35.0 | 33.9 |
| HERMES | 68.2 | 34.5 | 34.5 |
| OmniMem (ours) | 68.4 | 38.4 | 34.2 |
在流式基准上,优势主要体现在需要平衡音视频信息的Omni-source分区,例如在4B模型上提升7.3%。
消融实验 (Table 4):
| Methods | Video-MME long | LVBench | LV-Omni-Bench |
|---|---|---|---|
| OmniMem | 69.6 | 53.3 | 42.5 |
| w/o Separate audio visual budgets | 66.8 | 52.2 | 40.7 |
| w/o AVBA (i.e. uniform single cache) | 66.3 | 51.7 | 40.5 |
| w/o \(\psi_k\) | 67.9 | 52.0 | 41.4 |
移除AVBA或统一缓存对性能(尤其是需要音频理解的VideoMME long)影响显著。移除\(\psi_k\)(仅使用余弦相似度)影响相对较小。
预算比率消融 (Table 3):
| Methods | VMME long | LVBench | LV-Omni-Bench |
|---|---|---|---|
| No Split | 66.8 | 52.2 | 40.7 |
| r=20 | 66.7 | 52.7 | 41.4 |
| r=10 | 68.6 | 53.4 | 41.6 |
| r=5 | 69.6 | 53.3 | 42.5 |
| r=2 | 68.8 | 51.5 | 43.2 |
实验表明,先验比率\(r=5\)在大多数基准上取得最佳平衡。
运行时开销:OmniMem因需存储隐藏状态计算相似度,带来约1GB以内的额外内存开销。首token延迟与基线方法相当,约0.2秒。
内存敏感性分析 (Fig. 6):OmniMem在4k-48k的内存预算范围内均优于StreamMem,优势在8k-16k预算时最明显。LVBench的性能随内存增加仍有上升趋势,而其他基准较早饱和。


⚖️ 评分理由
- 创新性 (1.4/2):问题定位精准,针对音视频LLM的内存瓶颈。方法上的创新点(扰动感知选择、AVBA)是有效的工程改进,但整体框架仍属于KV缓存压缩领域的渐进式优化,缺乏理论层面的突破性贡献。
- 技术严谨性 (1.1/1.5):扰动感知的\(\psi_k\)评分设计有合理的动机和解释。但如作者承认,对\(\psi_k\)的理论分析(如\(\lambda\)的选取、余弦相似度作为信息可替代性度量的理论依据)不够深入。AVBA中先验比率\(r\)为固定超参数,其自适应确定机制未探讨。
- 实验充分性 (1.4/1.5):实验非常扎实,在多个音视频理解基准上进行了全面对比,并提供了充分的消融研究(组件、预算比率)和敏感性分析(\(\lambda\), T, 内存大小)。实验数据有力地支持了方法的有效性。
- 清晰度 (1.2/1.5):论文结构清晰,方法描述和图表(如图1,2)有助于理解。但部分公式推导(如AVBA中压缩性分数\(\mathcal{C}\)如何具体影响预算分配的细节)可以更直观地阐述。
- 影响力 (0.8/1.5):对流式音视频LLM的实际部署有直接帮助,工程价值明确。但其影响主要限于多模态推理的系统优化领域,对基础模型架构或训练范式的影响有限。作为语音/音频领域工作,其贡献更偏向“应用层”的跨模态效率提升,而非音频本身的核心建模问题。
- 开源 (0.6/1.5):论文承诺将发布代码和微调模型检查点,并提供了代码仓库链接(
https://github.com/bytedance/SALMONN/tree/omni_mem),这值得肯定。但截至目前,模型权重和评估数据集链接并未提供,开源完整度不足。 - 可复现性 (0.8/1.5):论文提供了关键超参数(\(\lambda=0.02\), T=0.2)、训练细节(微调epoch、梯度截断设置)和引导提示词(附录B)。然而,校准集的具体内容、代码的未开源状态以及模型权重的缺失,对完全复现实验构成了障碍。
- 工程/实践价值 (1.2/1.5):该工作具有很高的工程实践价值。它明确针对部署场景(流式、内存受限),提供了开销可控(轻微内存增加,延迟持平)的解决方案,并通过实验验证了其在多种实际模型(video-SALMONN 2+, Qwen2.5-Omni)上的有效性。
🚨 局限与问题
- 校准数据依赖性:AVBA模块和层间预算分配依赖于离线校准集。论文未说明校准集的选择标准、规模以及最终性能对校准集分布的敏感性。如果部署场景的音视频内容分布与校准集差异大,预算分配策略的有效性可能下降。
- 隐藏状态存储的额外开销:计算\(s_k\)需要存储隐藏状态,尽管开销被量化为较小值,但这确实是标准KV缓存压缩方法之外的非必要负担,在资源极端受限的边缘设备上可能成为考量因素。
- 实验范围局限:
- 模型覆盖:主要验证在基于密集Transformer的模型上,对于作者在局限性中提到的线性注意力等高效Transformer变体,其适用性未验证。
- 微调泛化:预算感知微调仅在video-SALMONN 2+上进行,未在Qwen2.5-Omni等其他架构上验证,其泛化性存疑。
- 方法对计算复杂度的潜在影响:计算注意力权重\(a_k\)需要累积所有查询的注意力分数,在流式设置中,每个新chunk到来时都需要与整个缓存交互。虽然论文提到“查询分组”以控制内存,但这可能在某些超长上下文场景下引入可观的计算开销,论文对此的定量分析不够充分。
- 预算分配的静态性:层间预算在离线校准后固定,无法根据输入内容的动态变化(如音频突变、关键视觉场景)进行在线调整,这可能是一个优化点。
- 对“扰动”的定义:\(\psi_k\)最小化的是注意力输出的扰动,但这不直接等同于最终生成文本或任务性能的扰动。选择标准与下游任务性能之间的关联性是间接的。
- 对比基线的公平性考量:所有基线使用相同的8K固定预算。虽然图6显示OmniMem在不同预算下均有优势,但在高预���(如48K)下性能差距有缩小趋势,这表明OmniMem的核心优势可能更集中于高压缩率场景。
📷 论文图片
