FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference
📄 FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference #音频问答 #大语言模型的压缩与加速 #音视频 #多模态模型 ✅ 7.0/10 | 前25% | #音频问答 | #大语言模型的压缩与加速 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(韩国科学技术院,Korea Advanced Institute of Science and Technology, South Korea) 通讯作者:未说明 作者列表:Chaeyoung Jung(韩国科学技术院)、Youngjoon Jang(韩国科学技术院)、Seungwoo Lee(韩国科学技术院)、Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点:本文敏锐地发现了现有token剪枝研究在音视频大语言模型领域的空白,并首次提出了系统性的解决方案,其两阶段剪枝策略(全局剪枝+精细剪枝)在实验上取得了显著且一致的效率提升(>40% FLOPs降低),且不损害甚至能提升性能,这对于推动此类昂贵模型的实际部署具有明确的工程价��。 短板:技术路线本质上是对视觉token剪枝方法的“移植”和“拼接”(全局剪枝基于视觉工作常见的注意力回溯,精细剪枝基于LLM剪枝中常见的最后token分析),在剪枝机制本身上创新有限。此外,实验对比集中在自身设定的不同剪枝策略上,缺乏与更多元、更强的基线方法(如其他可能适用于多模态的剪枝或加速技术)的横向比较。 📌 核心摘要 要解决的问题:音视频大语言模型在处理包含音频、视频、文本的多模态输入时,token数量巨大,导致推理时内存消耗和计算成本剧增,限制了其实际应用。 方法核心:提出FastAV,一个两阶段的推理时token剪枝框架。第一阶段在中间层进行“全局剪枝”,利用注意力回溯机制分析token重要性,移除位置靠后、影响力较弱的大部分token(如2/3);第二阶段在后续层进行“精细剪枝”,基于最后一个查询token的注意力权重,逐层迭代移除最不重要的20% token。 与已有方法相比新在哪里:这是首个专门为音视频大语言模型设计的token剪枝框架。不同于直接应用在纯文本LLM或视觉-语言模型上的方法,FastAV综合考虑了音视频模态的特点,并通过注意力回溯揭示了此类模型在中间层后注意力集中于早期token的“锚定”模式,从而设计了针对性的剪枝策略。 主要实验结果:在VideoLLaMA2和video-SALMONN2两个模型上,FastAV将理论FLOPs降低了40%以上(见表1),同时推理速度提升约30%,内存占用降低。在AVQA, MUSIC-AVQA, AVHBench三个基准测试上,性能保持持平甚至有所提升(例如在AVHBench的AV匹配任务上,VideoLLaMA2的准确率从57.8%提升至69.0%)。消融实验表明,基于注意力回溯的全局剪枝策略优于随机剪枝和基于原始注意力权重的策略(表2),精细剪枝的剪枝比例P=20%为最优(表4)。 实际意义:使音视频大语言模型能够更高效地处理长视频、复杂音频等多模态长上下文输入,降低了部署的硬件门槛和延迟,有助于推动其在实时交互、边缘设备等场景的应用。 主要局限性:剪枝策略的有效性依赖于“注意力在中间层后集中于早期token”这一观察,该模式是否在所有音视频大语言模型和任务中普遍存在尚不明确。此外,论文未探讨该剪枝框架对模型训练或微调阶段的影响,也未提供理论保证证明性能不会在更极端的压缩下下降。 🏗️ 模型架构 FastAV本身并非一个独立的音视频大语言模型,而是一个应用于现有模型(如VideoLLaMA2、video-SALMONN2)推理阶段的加速框架。其整体流程如图3所示。 图3:FastAV框架概览。输入序列包含视频(X_vis)、音频(X_aud)和文本(X_lang)token。整体推理过程(a)在中间层(L/2)进行全局剪枝,在后续层进行精细剪枝。剪枝机制(b)展示了全局剪枝依据注意力回溯,精细剪枝依据最后查询token的注意力分析。 ...