📄 Stage-adaptive Token Selection for Efficient Omni-modal LLMs
#多模态模型 #高效推理 #音频视觉 #大语言模型
✅ 7.7/10 | 前25% | #多模态模型 | #高效推理 | #音频视觉 #大语言模型 | arxiv
学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.7/2 | 置信度 高
👥 作者与机构
- 第一作者:Zijie Xin (Renmin University of China)
- 通讯作者:Xirong Li (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.)
- 作者列表:Zijie Xin (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.), Ruixiang Zhao (Renmin University of China), Tianyi Wang (WeChat Vision, Tencent Inc.), Fengyun Rao (WeChat Vision, Tencent Inc.), Jing Lyu (WeChat Vision, Tencent Inc.), Xirong Li (Renmin University of China)
- 注:论文脚注说明 Zijie Xin 和 Ruixiang Zhao 在腾讯实习期间完成了这项工作。
💡 毒舌点评
该工作的核心洞察——om-LLM中跨模态token的依赖性随深度衰减——清晰且有说服力,实验设计也足够扎实(跨模型、多基准、消融分析)。然而,其提出的“阶段自适应”策略在实现上高度依赖于精心调参的启发式规则(如层级划分、衰减函数),这既限制了方法的泛化性(需为每个新模型重新调参),也使得其“自适应”的声称略显薄弱,本质上更像是一种精心设计的、分阶段的启发式调度,而非真正能动态适应输入内容的机制。
📌 核心摘要
- 问题:全模态大语言模型(om-LLM)在处理音视频等密集非文本token时,由于自注意力机制的平方复杂度,导致巨大的计算和内存开销。现有的训练无关token选择方法要么只关注视觉模态,要么仅在LLM外部以固定比例裁剪,无法捕捉跨模态token重要性在模型内部随层深度的动态变化。
- 核心方法:提出SEATS,一个训练无关、阶段自适应的token选择方法。其核心流程分为三阶段:1) 预LLM阶段:在每个时间窗口内,使用基于注意力加权的多样性选择(winDivPrune)去除时空冗余,缩短输入序列。2) LLM内部中间层:采用块级token保留率(TRR)衰减调度,随层深逐步增强剪枝强度。同时,通过自上而下的两级分配策略,根据查询相关性分数动态地将保留预算分配到不同时间窗口和模态(视觉/音频)。3) LLM内部深层:在交叉模态融合基本完成后,直接移除所有剩余的非文本token。
- 创新点:揭示了om-LLM中视觉和音频依赖性呈块状模式并随深度衰减的关键观察;提出了结合预处理、分层衰减剪枝和最终清理的三阶段混合策略;引入了基于查询相关性的两级动态预算分配,以应对音视频在不同时间窗口重要性变化的挑战。
- 主要实验结果:在Qwen2.5-Omni-7B和Qwen3-Omni-30B两个模型上,在五个音频视觉基准上进行了验证。核心结果如下表所示。SEATS在极低的保留率下仍能保持很高的性能。
| 模型 | 整体保留率 (RR) | 视觉/音频保留率 (Rv-Ra) | TFLOPs (相对Full) | 平均性能 (相对Full) | 预填充加速比 |
|---|---|---|---|---|---|
| Qwen2.5-Omni-7B | 10% | 6-35 | 12.2 (9.3x) | 46.9 (96.3%) | 4.8x |
| 25% | 20-55 | 26.5 (4.2x) | 48.6 (99.8%) | 2.7x | |
| 35% | 30-65 | 36.7 (3.0x) | 49.3 (101.1%) | 2.1x | |
| Qwen3-Omni-30B | 10% | 7-45 | 3.9 (未提供绝对值) | 53.0 (95.5%) | 未提供 |
| 25% | 22-60 | 9.0 | 54.7 (98.6%) | 未提供 | |
| 35% | 32-70 | 13.3 | 55.4 (99.8%) | 未提供 |
- 实际意义:为部署在资源受限环境中的全模态大模型提供了一种高效、无需训练的推理加速方案,显著降低FLOPs和内存占用,同时保持任务性能。
- 主要局限性:方法中的多个关键超参数(如层级划分边界、衰减尺度因子λ)需要针对每个特定的om-LLM骨干网络进行手动调优,缺乏自动适应能力。目前的实验仅针对特定的Qwen系列模型,其泛化性有待更广泛验证。
🔗 开源详情
- 代码:https://github.com/xxayt/SEATS
- 模型权重:论文中未提及模型权重的直接下载链接。论文使用了两个开源的 om-LLM 进行实验:Qwen2.5-Omni-7B 和 Qwen3-Omni-30B(A3B-Instruct),其获取方式通常需参考模型官方仓库(论文未提供具体链接)。
- 数据集:论文中未提及数据集的具体下载链接。论文在五个公开的音频-视觉基准测试集上进行评估,包括:WorldSense [12]、Daily-Omni [43]、OmniVideoBench [15]、Video-MME [9] 和 LVOmniBench [27]。
- Demo:论文中未提及。
- 复现材料:论文提供了详细的实验设置、实现细节和超参数分析,包含在附录 B (Experimental Details) 和附录 C (More Experimental Results) 中。具体包括:
- 测试集详细描述(表 6)。
- 基线方法在 om-LLM 上的复现细节(附录 B.2,包括每个基线的开源链接、许可证及适配方式)。
- 超参数 λ 的敏感性分析(表 9)。
- 用于计算衰减因子 δ 的推导过程(附录 A)。
- 论文中引用的开源项目:
- SEATS (本文方法): https://github.com/xxayt/SEATS
- FastV: https://github.com/pkunlp-icler/FastV (论文中引用为[3])
- VisionZip: https://github.com/dvlab-research/VisionZip (Apache 2.0 License,论文中引用为[35])
- DivPrune: https://github.com/vbdi/divprune (CC BY-NC 4.0 License,论文中引用为[1])
- DyCoke: https://github.com/KD-TAO/DyCoke (Apache 2.0 License,论文中引用为[25])
- FastVID: https://github.com/LunarShen/FastVID (MIT License,论文中引用为[21])
- OmniZip: https://github.com/KD-TAO/OmniZip (Apache 2.0 License,论文中引用为[26])
- LMMs-Eval (评测框架): https://github.com/EvolvingLMMs-Lab/lmms-eval (Apache 2.0 License,论文中引用为[38])
- Qwen2.5-Omni (模型): https://github.com/QwenLM/Qwen2.5-Omni (Apache 2.0 License,论文中引用为[33])
- Qwen3-Omni (模型): https://github.com/QwenLM/Qwen3-Omni (Apache 2.0 License,论文中引用为[34])
🏗️ 方法概述和架构
1. 整体流程概述 SEATS是一个针对全模态大语言模型(om-LLM)推理阶段的、训练无关的token选择方法。它作为一个插件模块,在模型接收到音视频输入后、进行自回归生成前,对输入的非文本token(视觉和音频)进行有选择的保留和移除,以减少后续LLM层需要处理的序列长度。整个流程分为三个顺序阶段:预LLM剪枝、LLM内部渐进剪枝、以及最终的非文本token清理。
2. 主要组件/模块详解
阶段I:预LLM阶段 - 基于窗口的多样性剪枝 (winDivPrune)
- 功能:在进入LLM之前,对原始的、按时间窗口组织的音视频token进行压缩,去除明显的时空冗余,生成一个更紧凑的初始输入序列。
- 内部结构与实现:扩展自用于图像token选择的DivPrune方法。具体操作是:对于每个时间窗口
t内的视觉token集合和音频token集合,分别计算一个token间的距离矩阵(例如余弦距离)。为引入查询相关性,对距离矩阵的每一行(对应每个token)根据其被最后一句文本token的注意力得分进行加权。然后,通过贪心地求解一个“最大-最小多样性”问题,即迭代地选择能使已选子集中最小token间距离最大化的token,来选出一个具有高代表性和多样性的子集。 - 输入输出:输入是来自多模态编码器的、按时间窗口分组的视觉token序列
{z_v^(t)}和音频token序列{z_a^(t)}。输出是经过稀疏化后的token序列,数量由预设的预LLM保留率(r_s = λ * R)决定。
阶段II:LLM内部 - 块级衰减调度与查询引导分配
- 功能:在LLM的前向传播过程中,于不同深度(层)执行渐进式token剪枝,并根据查询动态分配视觉和音频模态的token预算。
- 内部结构与实现:
- 块级TRR衰减调度:将LLM的
L层划分为浅层(不剪枝)、中间层(执行剪枝)和深层(移除所有非文本token)。在中间层内,进一步划分为三个子块,每个子块使用一个递减的token保留率(TRR)。TRR的衰减遵循指数增长的步长:r_{m_i} = r_{m_{i-1}} - δ * e^{i-1}。其中δ是一个由整体保留率R、缩放因子λ和层边界位置计算出的常数。 - 自上而下的两级预算分配:对于中间层的每一层,根据当前层的视觉和音频TRR(
r_v,r_a)计算出总保留token预算。然后通过两级分配来决定每个窗口、每个模态的具体保留数量:- 窗口间分配:计算每个窗口
t与用户查询的相关性分数S_t(基于最后一句文本token对该窗口内所有视觉和音频token的注意力得分的平均值),然后按S_t的比例将总预算分配到各个窗口:B_t = (r_v*N_v + r_a*N_a) * S_t。 - 窗口内模态分配:在每个窗口内,根据该窗口中视觉和音频各自的查询相关性分数(
S_{t,v},S_{t,a})以及其全局层预算(r_v*N_v,r_a*N_a),计算分配给视觉的预算B_{t,v},音频预算为B_{t,a} = B_t - B_{t,v}。
- 窗口间分配:计算每个窗口
- 查询引导的token选择:在每个窗口内,对视觉(或音频)token按其与查询的注意力得分降序排序,保留得分最高的
B_{t,v}(或B_{t,a})个token。
- 块级TRR衰减调度:将LLM的
- 输入输出:输入是来自前一层的、经过压缩的音视频token序列以及文本token。输出是进一步稀疏化后的序列,用于传递给下一层LLM。
阶段III:LLM深层 - 非文本token移除
- 功能:在LLM的最后若干层(深层块),直接丢弃所有剩余的视觉和音频token。
- 动机与实现:基于图2的观察,在深层,模型性能对非文本token的移除不再敏感,表明跨模态融合已基本完成。此操作通过简单地不将这些token传递到后续层来实现,能带来显著的预填充加速,而对准确性影响极小。
3. 组件间的数据流与交互
数据流是单向、串行的。原始音视频token首先经过阶段I(winDivPrune)被压缩。压缩后的序列与文本token拼接,送入LLM。在LLM的浅层块(前L_s层),音视频token不被进一步剪枝,完整通过。进入中间层块后,每一层都会根据当前的层索引和预设的调度表确定本层的r_v和r_a,然后利用当前层的文本token对剩余音视频token的注意力,动态计算出每个窗口、每个模态应保留的token数量,并进行选择。经过中间层块的逐步稀疏化后,进入深层块(第L_l层之后),所有剩余的音视频token被一次性移除,后续层仅处理文本token。
4. 关键设计选择及动机
- 混合剪枝位置:结合预LLM(去除冗余)和内LLM(查询感知剪枝)的优点。预处理快速去除明显冗余;内部剪枝则利用逐层深化的、与查询相关的注意力进行更精细的选择。
- TRR衰减调度:动机直接来源于图2的实证观察——模型对非文本token的依赖性随层深减弱。衰减调度允许浅层保留更多token以完成融合,深层则更激进地剪枝以节省计算。
- 两级动态预算分配:旨在解决固定模态比例无法适应不同时间窗口音视频信息重要性变化的问题。通过查询相关的注意力分数,动态地将计算资源(token预算)分配给最相关的时空区域和模态。
5. 多阶段逐层展开 (已在上文“整体流程概述”和“主要组件详解”中按阶段I、II、III详细展开)
6. 架构图/流程图
图中清晰展示了SEATS的三阶段流程。左侧输入是按时间窗口组织的视觉和音频token序列。首先经过“Stage I: Pre-LLM winDivPrune”,输出压缩后的序列。接着进入LLM(图中为Transformer块堆叠),在浅层块(Shallow Blocks)直接通过。在中间层块(Middle Blocks),每一层都进行“Query-guided Selection”,并显示了基于查询注意力分数的预算分配过程。在深层块(Late Blocks)之后,音视频token被完全移除,仅剩文本token继续处理。下方的“Block-wise TRR Decay Schedule”示意图展示了token保留率随层深下降的趋势。
7. 专业术语解释
- Omni-modal LLM (om-LLM):能够同时处理和理解多种模态(如文本、图像、视频、音频)输入的大型语言模型。在本文中特指将对齐的音视频token序列与文本token拼接后输入同一个LLM进行联合推理的模型。
- Token Retention Ratio (TRR,
r):在某一LLM层或阶段,保留的非文本token数量占该阶段输入非文本token总数量的比例。是控制剪枝强度的核心参数。 - Window-based DivPrune (winDivPrune):本文提出的一种token选择算法。在固定大小的时间窗口内,结合基于注意力的显著性加权和基于距离的最大最小多样性优化,来选择一组有代表性的token子集。
- Query Relevance Score:通过计算文本查询token(最后一句)对目标视觉或音频token的注意力得分,来量化该token与用户查询的相关性。分数越高,表示该token对回答查询可能越重要。
💡 核心创新点
- 关键观察:块状依赖模式:通过系统实验揭示了om-LLM中,视觉和音频token的依赖性在模型浅层最强,在中间层随融合进程而减弱,在深层几乎不再需要。这一观察为设计阶段自适应的剪枝策略提供了直接的实证依据。
- 三阶段混合剪枝框架:创新性地将预处理多样性剪枝、LLM内部基于层级衰减的渐进剪枝以及最终的非文本token清理相结合。相比于之前仅在预处理或LLM内部单点进行剪枝的方法,这种分阶段策略能更精细地平衡不同推理阶段的冗余特性。
- 两级动态预算分配机制:提出了一种自上而下的、基于查询引导的预算分配策略。它首先将总token预算按查询相关性分配到不同时间窗口,然后在每个窗口内根据视觉和音频各自的查询相关性进一步分配。这解决了固定模态比例策略无法适应动态跨模态重要性变化的问题,提升了查询敏感性和选择效率。
📊 实验结果
主要基准测试结果
论文在五个基准(WorldSense, Daily-Omni, OmniVideoBench, Video-MME, LVOmniBench)和两个om-LLM(Qwen2.5-Omni-7B, Qwen3-Omni-30B)上进行了全面对比。下表汇总了在Qwen2.5-Omni-7B上的关键结果(性能为平均值,括号内为相对满token的百分比)。
| 方法 | RR | Rv-Ra | TFLOPs | 平均性能 |
|---|---|---|---|---|
| Full tokens | 100% | 100-100 | 111.0 | 48.7 (100%) |
| SEATS | 35% | 30-65 | 36.7 | 49.3 (101.1%) |
| SEATS | 25% | 20-55 | 26.5 | 48.6 (99.8%) |
| SEATS | 15% | 10-45 | 17.3 | 47.4 (97.4%) |
| SEATS | 10% | 6-35 | 12.2 | 46.9 (96.3%) |
| Random | 35% | 30-65 | 37.4 | 47.7 (97.9%) |
| DivPrune-om | 35% | 30-65 | 37.4 | 48.3 (99.2%) |
| OmniZip | 35% | 30-65 | 38.2 | 48.2 (99.0%) |
| FastV | 35% | 24-100 | 38.3 | 47.6 (97.7%) |
- 核心结论:SEATS在所有保留率下均优于基线方法。值得注意的是,在35%保留率下,SEATS的平均性能甚至超过了使用所有token的基线(101.1%),这表明其查询感知的选择机制有效减少了无关token的干扰。在10%的极端压缩下,仍能保持96.3%的性能,同时实现9.3倍的FLOPs缩减和4.8倍的预填充加速(见表4)。
效率分析 表4提供了详细的效率数据。在RR=10%时,SEATS将预填充时间从0.937秒降至0.196秒(4.8���加速),GPU峰值内存从22.83GB降至17.65GB。其额外的token选择开销非常小(毫秒级),且随压缩率提高而减少。
消融实验分析 表5展示了在Qwen2.5-Omni上RR=35%时的消融实验,验证了各组件的有效性:
- 预LLM阶段:用随机选择替代winDivPrune,性能下降0.9分(49.3->48.4)。去除注意力加权,性能下降0.7分。证明了结合显著性和多样性的必要性。
- 内LLM阶段:完全移除Stage II(即只进行预剪枝),性能下降0.6分。将指数衰减改为均匀衰减,性能下降0.3分。解耦模态独立分配,性能下降0.8分。证明了渐进剪枝和跨模态联合分配的优势。
- 深层移除:移除最后块的非文本token移除操作,对性能影响极小(49.3->49.2),但预填充时间增加53%(436ms->668ms),验证了该设计的正确性和效率收益。
跨模型验证 在更大的Qwen3-Omni-30B模型上(表8),SEATS同样展现出一致的优势。在RR=35%时,性能达到满token的99.8%(55.4 vs 55.5)。在RR=10%时,保持95.5%的性能。证明了该方法在不同规模模型上的可扩展性。
相关图表
图5展示了缩放因子λ对性能的影响。在测试的范围内(1.25-1.45),平均性能保持在49.0-49.3之间,表明方法对这一超参数具有一定的鲁棒性。
🔬 细节详述
- 训练数据:本文为训练无关(training-free)方法,无需额外训练数据。实验所用基准数据集的详细信息见表6和附录B.1。
- 损失函数:不适用。方法不涉及训练。
- 训练策略:不适用。
- 关键超参数:
- 整体保留率 RR:从{10%, 15%, 25%, 35%}中选择。
- 预LLM缩放因子 λ:默认1.4。敏感性分析见图5和表9。
- LLM层块边界 (L_s, L_m1, L_m2, L_l):对Qwen2.5-Omni-7B设置为(16, 19, 21, 24);对Qwen3-Omni-30B设置为(27, 32, 36, 40)。
- 温度 τ:用于计算窗口相关性分数S_t的softmax温度,默认0.1。
- 时间窗口大小:包含288个视频token;音频token数因模型而异(Qwen2.5-Omni: 50, Qwen3-Omni: 26)。
- 训练硬件:未提供训练硬件信息,因为方法无需训练。评估在NVIDIA A800 80GB GPU上进行。
- 推理细节:
- 视频采样率:2 FPS。
- 最大输入帧数:因模型和基准而异,例如在Qwen2.5-Omni上,WorldSense和Daily-Omni为128帧,Video-MME和LVOmniBench为768帧。
- 评估框架:使用LMMs-Eval库进行统一评估。
- 代码优化:论文提到通过向量化张量操作优化了token选择代码,降低了开销。
- 正则化或稳定训练技巧:不适用。
⚖️ 评分理由
创新性:2.2/3 论文提出了一个清晰且重要的问题:如何高效处理om-LLM中的密集音视频token。其核心洞察(依赖性随层深衰减)通过实验得到了有力验证。三阶段框架和两级动态分配的设计是对现有单点剪枝方法的合理且有效的扩展与整合,具有明确的工程创新性和问题解决导向。虽然未提出全新的理论或模型架构,但在系统设计上的创新性足以支撑其贡献。
技术严谨性:1.2/1.5 方法描述清晰,算法逻辑自洽。关键组件(winDivPrune、衰减调度、预算分配)都有明确的数学表述。消融实验系统地验证了各组件的作用。轻微不足在于,部分设计选择(如块边界、指数衰减函数形式)更像是经验性的启发式规则,其理论最优性或与模型内部机制的深层联系未被充分探讨。
实验充分性:1.3/1.5 实验非常充分。涵盖了两个代表性om-LLM(不同规模和架构),五个覆盖不同视频长度和任务侧重点的基准。与多种有代表性的基线(图像、视频、全模态方法)进行了公平对比。提供了详细的消融研究、效率分析和参数敏感性分析。结果强有力地支撑了论文的结论。
清晰度:0.8/1 论文写作清晰,结构合理。方法描述配以直观的架构图(图3),使得复杂的多阶段流程易于理解。表格和图表制作精良,数据呈现明确。符号定义一致。稍有冗余,但整体可读性很好。
影响力:0.5/2 该工作直接针对全模态大模型部署的核心效率瓶颈,提出的SEATS方法作为一个即插即用的模块,具有明确的实用价值。它在权威基准上取得了当前最优的效率-性能平衡,很可能被后续的om-LLM工作所借鉴。然而,其核心贡献聚焦于多模态大模型的推理效率优化,虽然涉及音频模态,但并非以解决语音/音频领域特定问题(如识别、合成、理解)为目标。对于专注于纯语音处理的读者,其方法论上的借鉴意义大于直接应用价值。因此,影响力得分较低。
开源:1.3/1.5 论文提供了明确的GitHub代码仓库链接(https://github.com/xxayt/SEATS),并提供了README(根据链接推测)。这极大地增强了工作的可复现性和影响力。未提及是否开源预训练模型权重或数据集,但这对于训练无关的方法而言并非必需。开源代码是重要加分项。
可复现性:0.4/0.5 论文在附录B中提供了详细的实验设置(数据集划分、基线复现细节、超参数选择)。所有关键超参数(λ, τ, 层边界)及其设置理由都有说明。评估框架(LMMs-Eval)和基础模型(Qwen-Omni)均为公开资源。结合开源代码,他人应能较为容易地复现实验结果。信息充分,扣分点很少。
总分:7.5/10
🚨 局限与问题
1. 论文明确承认的局限:
- 方法依赖于启发式超参数(如层级划分边界),需要针对每个新的om-LLM骨干网络进行调优。
- 未来工作包括自动适应这些配置,以及将该方法扩展到流式推理场景(即输入序列在预填充时并非完全可用)。
2. 审稿人发现的潜在问题:
- 超参数敏感性与泛化性:虽然论文展示了λ的鲁棒性(图5),但层级边界
(L_s, L_m1, L_m2, L_l)似乎是手动设定且对模型结构敏感。这可能会限制SEATS在全新om-LLM架构上的即插即用能力,用户需要重新进行类似图2的分析来确定这些边界,这增加了使用门槛。 - 对特定模型架构的依赖:实验仅在Qwen系列的两个特定om-LLM上进行。这些模型在token编码和LLM架构(如Qwen3的MoE)上的具体特性是否会影响SEATS的普遍有效性,尚需在更多样化的模型上验证。
- “自适应”的定义:论文标题和摘要强调“Stage-adaptive”,但目前的“自适应”主要体现在基于预设规则的层级调度和基于输入查询的注意力引导选择上。它无法根据输入内容的复杂性(如视频运动剧烈程度、音频事件密集度)动态调整整体的压缩策略或剪枝强度,这在一定程度上弱化了“自适应”的内涵。
- 评估指标单一性:主要评估指标是基于准确率的均值。对于效率优化工作,缺乏对剪枝后token分布可解释性、或对模型内部表示质量影响的分析。
- 与更先进基线的对比:论文中对比的基线截至2025-2026年。考虑到该领域发展迅速,可能存在更新的相关工作未被纳入对比。