OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
📄 OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs #高效推理 8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8/10 | 前25% | #高效推理 | #高效推理 | arxiv 👥 作者与机构 Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang; Tsinghua University, ByteDance, University of Cambridge 💡 毒舌点评 这篇论文像个扎实的工程师作品:精准定位了一个真实的痛点(音视频LLM长视频推理的内存瓶颈),并给出了一个巧妙且有效的工程解决方案。核心的“扰动感知+模态感知预算分配”组合拳逻辑自洽,实验也足够“暴力”,在多个基准上压倒性地击败了现有训练时基线。然而,它缺乏令人眼前一亮的理论深度,更像是一次出色的系统优化而非范式突破。其开源承诺(代码+模型权重)目前仍停留在“空头支票”阶段,这对于顶会论文的完整性是个减分项。总体而言,这是一篇在特定领域(音视频高效推理)内扎实、有用、但不算革命性的工作。 📌 核心摘要 本文针对音频-视觉大语言模型(av-LLMs)在流式处理长视频时面临的KV缓存内存线性增长瓶颈,提出了OmniMem压缩框架。该方法包含三个核心组件:1) 扰动感知的KV缓存选择机制,通过综合考虑注意力权重(重要性)和余弦相似度(冗余性)来最小化驱逐KV对对模型输出的影响;2) 首个音频-视觉预算分配模块,为音频和视觉模态的KV缓存分配独立的、可动态调整的预算,以解决两者token数量严重不平衡的问题;3) 基于离线校准的层间预算分配策略。此外,论文探索了预算感知微调以进一步提升性能。在video-SALMONN 2+和Qwen2.5-Omni模型上,于VideoMME Long、LVBench等基准的实验表明,OmniMem在相同内存预算下比强基线方法一致提升了2-4%的绝对精度,微调后可再获1-2%的提升。 ...