Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs #音视频 #高效推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音视频 | #高效推理 | #多模态模型 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(Korea Advanced Institute of Science and Technology (KAIST)) 通讯作者:未明确说明(论文中列出的通讯作者地址为“Equal contribution”,与第一作者相同) 作者列表:Chaeyoung Jung(KAIST)、Kyeongha Rho(KAIST)、Joon Son Chung(KAIST) 💡 毒舌点评 这篇论文的“移除音频已知,保留音频未知”的剪枝思想确实新颖且直观,实验结果也非常亮眼,尤其是在Qwen2.5-Omni 7B上能以55%的压缩率保持甚至超越全token性能。但尴尬的是,方法最核心的“保留空间细节”分支(图2中标注2⃝)依赖于一个固定的全局空间保留比例ρspa,这在处理如球员球衣号码、面部表情等高度局部化、信息量集中的细节时显得非常脆弱,论文的失败案例也明确证实了这一点。一个自适应的、可能依赖内容或查询的空间预算分配机制,才是该方法从“有效”迈向“鲁棒”的关键下一步。此外,将所有实验仅限于短视频片段,其结论在长视频场景下的普适性存疑。 📌 核心摘要 要解决什么问题:全模态大语言模型(Omni-LLMs)在处理音视频输入时,会产生大量token,导致计算开销巨大,阻碍了实际部署。现有的token剪枝方法要么针对特定任务训练,要么过度依赖音频-视觉的强对齐信号,可能丢弃理解宽泛上下文所需的证据。 方法核心是什么:论文提出了一个名为ContextGuard的推理时token剪枝框架。其核心思想是将token压缩从“选择重要token”重新定义为“移除跨模态冗余,同时保留音频无法表达的视觉上下文”。具体实现包含三个主要步骤:a) 音频引导的语义剪枝:使用一个轻量级的音频到视觉语义预测器(A2V Predictor)从音频预测粗糙视觉语义,移除与预测语义高度相似(即可被音频解释)的视频token;b) 空间细节保留:通过网格采样和局部空间变化度量,额外保留一部分token以覆盖图像空间,保存颜色、姿态等音频无法指定的局部细节;c) 基于深度分数的时间合并:对时间上相似的chunk进行分段和合并,进一步压缩冗余帧。 与已有方法相比新在哪里:与现有训练基础的(如EchoingPixels, OmniSIFT)或基于对齐的(如OmniZip)方法不同,ContextGuard不追求为当前查询选择最相关的token,而是致力于去除被音频流冗余表达的视觉信息,并主动保留那些与音频不匹配的视觉证据(如场景文字、背景物体),以维护更广泛的上下文信息。 主要实验结果如何:在Qwen2.5-Omni(7B/3B)和Video-SALMONN2+(7B/3B)两个模型及六个音视频基准测试上,ContextGuard显著优于基线方法。关键结果如表1所示: Method Comp.↑ (%) World.↑ Daily.↑ Video-MME↑ OmniVid.↑ AVQA↑ video-SAL2.↓ Avg.↑ (%) Qwen2.5-Omni 7B Full Token 0 47.4 57.1 78.8 48.2 87.6 48.1 100.0 Random 50 45.7 52.4 78.4 43.4 86.7 50.4 95.4 FastV 50 45.6 56.6 77.9 47.6 87.0 49.8 98.1 OmniZip 54 46.8 56.6 77.1 47.0 87.0 52.8 97.3 ContextGuard 55 47.7 57.2 78.8 48.2 87.1 48.1 100.0 Qwen2.5-Omni 3B Full Token 0 47.7 57.7 75.8 44.0 87.6 53.5 100.0 Random 50 44.1 53.1 74.0 42.8 87.1 56.1 95.7 FastV 50 46.7 55.6 74.0 44.0 87.2 54.6 98.2 OmniZip 54 47.1 55.8 74.9 42.8 87.3 52.4 98.9 ContextGuard 61 47.7 56.6 75.8 45.2 87.3 52.3 100.5 Video-SALMONN2+ 7B Full Token 0 50.7 56.3 79.2 43.4 67.8 18.9 100.0 Random 50 47.3 51.6 76.2 39.5 66.8 25.7 90.7 FastV 50 46.3 51.8 79.2 42.2 66.1 24.0 92.8 OmniZip 49 47.8 53.8 79.2 42.8 68.8 22.4 95.7 ContextGuard 55 50.6 55.5 81.4 47.0 66.9 19.9 100.5 Video-SALMONN2+ 3B Full Token 0 48.1 57.7 76.2 45.8 81.6 22.7 100.0 Random 50 44.3 51.6 73.2 42.0 81.2 30.3 90.6 FastV 50 45.6 53.2 71.0 36.1 81.0 27.4 90.2 OmniZip 49 45.6 54.7 73.2 41.6 81.3 26.3 93.7 ContextGuard 56 47.1 55.5 73.6 44.6 81.4 24.2 96.9 特别是在Qwen2.5-Omni 7B上,剪枝55%的token后,在6个基准中的5个上达到了全token性能。 实际意义是什么:该方法为部署高效的全模态大模型提供了有力的工具,通过一个无需微调下游LLM、仅需一个独立训练的轻量预测器的推理时框架,大幅降低了音视频理解的计算成本和内存占用,对实时交互应用具有重要价值。 主要局限性是什么:方法依赖于固定的精细粒度空间保留比例(ρspa),这可能导致在需要非常具体局部细节的任务(如识别球衣号码、细微表情)上表现不佳,正如其失败案例所示。此外,所有评估均基于短于1分钟的视频片段,限制了结论对长视频场景的适用性。A2V预测器的鲁棒性在不同内容类型(如音乐视频)上未被充分讨论。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: WorldSense: 论文中未提供链接。 Daily-Omni: 论文中未提供链接。 Video-MME: 论文中未提供链接。 AVQA: 论文中未提供链接。 OmniVideoBench: 论文中未提供链接。 video-SALMONN2 test set: https://huggingface.co/datasets/videoSALMONN2/video-SALMONN_2_testset AudioSet: 论文中提及,未提供具体链接。 VGGSound: 论文中提及,未提供具体链接。 Demo:论文中未提及。 复现材料:论文提供了详细的附录,包括 A2V 预测器的架构、训练目标、训练数据(AudioSet 和 VGGSound)、超参数设置、以及各项分析实验的细节(如语义保留比例、空间细节保留策略、时序合并实现等)。未提及训练检查点或代码库。 论文中引用的开源项目: Qwen2.5-Omni: 论文中作为基线模型使用,未提供代码或权重仓库链接。 Video-SALMONN2+: 论文中作为基线模型使用,未提供代码或权重仓库链接。 OmniZip: 论文中作为对比方法,未提供代码或仓库链接。 FastV: 论文中作为对比方法,未提供代码或仓库链接。 🏗️ 方法概述和架构 整体流程概述:ContextGuard是一个在LLM解码器之前运行的、多阶段的音视频token剪枝框架。其输入为交替的音视频token序列,输出为压缩后的视觉token序列和完整的音频token序列。该框架并非端到端系统,而是由一个独立训练的轻量级A2V预测器和一个基于启发式规则的剪枝-合并流水线组成。 ...

2026-05-14 · 更新于 2026-06-12 · 3 min · 510 words

Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets

📄 Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets #音频编码 #脉冲神经网络 #信号处理 #高效推理 ✅ 7.0/10 | 前25% | #音频编码 | #脉冲神经网络 | #信号处理 #高效推理 | arxiv 学术质量 7.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jens Egholm Pedersen(丹麦技术大学,电气与光子工程系) 通讯作者:Jens Egholm Pedersen(丹麦技术大学) 作者列表:Jens Egholm Pedersen(丹麦技术大学,电气与光子工程系)、Tony Lindeberg(瑞典KTH皇家理工学院,计算科学与技术系)、Peter Gerstoft(丹麦技术大学,电气与光子工程系) 💡 毒舌点评 这篇论文在理论层面做出了扎实且有价值的贡献,成功地将LIF神经元模型这一工程实践,严谨地嵌入到尺度空间理论和小波帧的数学框架中,填补了神经形态计算与经典信号处理之间的理论鸿沟。这种概念性的创新值得高度肯定。然而,实验部分存在明显短板,未能充分兑现其核心承诺。论文声称其方法“直接映射到神经形态硬件”,却未提供任何在真实神经形态平台上的功耗、延迟或脉冲率测量数据;解码器严重依赖离线的最小二乘法,与“实时、流式”的目标相去甚远;且实验仅局限于信号重建任务,对编码表示在下游任务中的效用未做探索,使得实际影响力大打折扣。 📌 核心摘要 本文旨在为基于脉冲的编码器建立一个严谨的信号处理理论框架。作者提出,可将常用的基于泄漏积分-发放(LIF)神经元的脉冲编码器重新解释为一种时间因果的尺度协变小波帧。核心方法是构造了两种新的脉冲小波家族:截断指数差(DoE) 和时间因果极限核差(DoT)。与现有工作相比,新在:(1)首次为脉冲编码提供了正式的帧定义、重建保证和误差界;(2)将多尺度框架与事件驱动表示统一;(3)提出的波形可直接映射到神经形态硬件。实验结果显示,在MIT-BIH ECG和LibriSpeech音频数据集上,所提出的脉冲小波(尤其是DoT)的归一化均方根误差(nRMSE)与经典的非因果Morlet小波及连续小波变换(CWT)相当(例如,在LibriSpeech上脉冲DoT的nRMSE为0.073,与Morlet的0.064处于可比范围)。本文的实际意义在于为神经形态前端提供了具有可证明重建保证的编码理论基础。主要局限性在于解码过程依赖离线的最小二乘权重求解,且缺乏在神经形态硬件上的实测性能验证。 🔗 开源详情 代码:https://github.com/jegp/swavelet 模型权重:论文中未提及 数据集:论文中提及使用MIT-BIH (Moody and Mark, 2001)和LibriSpeech (Panayotov et al., 2015)数据集,但未提供具体下载链接。 Demo:论文中未提及 复现材料:代码仓库 https://github.com/jegp/swavelet 应包含复现所需的主要材料。论文附录中提供了算法(Algorithm 1)和实验细节(Appendix J)。 论文中引用的开源项目: PyWavelets:用于实现离散小波变换(Haar和Morlet)。链接:https://github.com/PyWavelets/pywt Jax:实验所用的机器学习加速器。链接:https://github.com/google/jax Neuromorphic Intermediate Representation (NIR):文中提及的用于编译到神经形态硬件的表示,但未给出具体链接。 🏗️ 方法概述和架构 本文提出了一个端到端的信号编码与解码框架,旨在将连续时间信号转换为稀疏的脉冲序列,并能够稳定地重建原信号。该框架将传统的模数转换问题重新构建为基于尺度空间理论的小波分解与重构问题。 ...

2026-05-12 · 更新于 2026-06-12 · 2 min · 405 words

Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers

📄 Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers #说话人验证 #模型量化 #鲁棒性 #高效推理 ✅ 6.5/10 | #说话人验证 #模型量化 | arxiv 👥 作者与机构 第一作者:Ahmad Aloradi(FAU Erlangen-Nürnberg, 数据科学系 & 国际音频实验室) 通讯作者:未说明 作者列表:Ahmad Aloradi(FAU Erlangen-Nürnberg, 数据科学系 & 国际音频实验室)、Tim Roith(慕尼黑工业大学, 计算、信息与技术学院 & 慕尼黑机器学习中心)、Emanuël A. P. Habets(FAU Erlangen-Nürnberg, 国际音频实验室)、Daniel Tenbrinck(FAU Erlangen-Nürnberg, 数据科学系) 💡 毒舌点评 本文针对Bregman优化器中正则化参数λ对最终稀疏度极其敏感这一实际痛点,提出了一个简单有效的自适应调整策略,成功实现了在指定稀疏度下的稳定训练,且性能不错。然而,论文的理论贡献非常薄弱,仅提供了一个简单的收敛性引理,缺乏对自适应策略稳定性和震荡控制的深入分析,且实验验证主要局限在语音识别任务上,其方法在其他深度学习领域的普适性和影响力有待商榷。 📌 核心摘要 要解决什么问题:在基于Bregman的稀疏优化框架(如LinBreg和AdaBreg)中,控制最终模型稀疏度的正则化参数λ对用户非常不友好,相同的稀疏度目标需要相差几个数量级的λ值,需要耗时的网格搜索来找到“神谕”参数。 方法核心是什么:提出一种自适应正则化方案,在训练过程中根据当前模型稀疏度与目标稀疏度的差异(稀疏度缺陷ε)来动态调整λ。采用乘性更新规则,并在误差接近目标时通过调整更新频率和步长进行阻尼,以减少震荡。 与已有方法相比新在哪里:这是首次将这种基于稀疏度反馈的自适应参数控制策略应用于基于Bregman散度的优化器(镜像下降/线性化Bregman迭代)。不同于固定的λ调度或双层优化,该方法更轻量、直观,并与Bregman迭代的框架自然结合。 主要实验结果如何:在VoxCeleb和CNCeleb数据集上,使用ECAPA-TDNN和ResNet34模型,自适应方法能在75%到99%的稀疏度目标下,可靠地收敛到目标稀疏度。性能上,自适应方法在收敛速度和最终EER上等于或优于需要手动调参的非自适应“神谕”基线。例如,在VoxCeleb 1-O测试集上,ECAPA-TDNN使用AdaBreg在95%稀疏度下的EER为9.52%,而非自适应基线(λ=10)为9.70%。在OOD的CNCeleb-E上,稀疏模型(如ECAPA-TDNN, 95%稀疏度,EER 18.99%)优于密集模型(AdamW, EER 21.47%),展现了稀疏性带来的鲁棒性。 实际意义是什么:消除了在Bregman稀疏优化中寻找特定λ的繁琐过程,使得用户能直接指定所需的稀疏度进行训练,降低了使用该类高效优化器的门槛,有利于推动稀疏模型在资源受限场景下的应用。 主要局限性是什么:理论分析较弱,缺乏对自适应策略稳定性和震荡控制的严格保证。实验仅在两个语音数据集和两个模型架构上验证,方法在更广泛的任务和模型上的有效性未知。此外,发现并指出了Bregman优化器存在不理想的层间稀疏度分配问题(如分类器层过于稠密),导致在极端稀疏度下模型崩溃,这可能是该框架的内在缺陷。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中未提及数据集获取链接。论文使用了VoxCeleb [10] 和 CNCeleb [26] 数据集,但未提供直接的获取URL。 Demo:论文中未提及Demo。 复现材料:论文中提及了详细的训练配置(如表2和表3所示),但未提供具体的检查点、代码包或复现指南链接。 论文中引用的开源项目: WeSpeaker toolkit [43]:论文中引用了此工具包用于获取ECAPA-TDNN和ResNet34模型实现,但未提供其具体链接。 🏗️ 方法概述和架构 整体流程概述:该方法嵌入到基于Bregman迭代的稀疏训练循环中。在每次迭代中,首先执行常规的梯度步和基于ElasticNet的近端算子步来更新模型参数θ;然后,计算当前稀疏度与目标稀疏度的差异(稀疏度缺陷ε);最后,每隔f步,根据ε的大小和方向,通过一个乘性公式自适应地更新正则化参数λ,从而控制下一轮近端算子中软阈值的大小,间接控制参数的稀疏性。整个流程形成一个反馈控制回路。 ...

2026-05-11 · 更新于 2026-06-12 · 2 min · 398 words

Pro-KLShampoo: Projected KL-Shampoo with Whitening Recovered by Orthogonalization

📄 Pro-KLShampoo: Projected KL-Shampoo with Whitening Recovered by Orthogonalization #大语言模型 #优化器 #高效推理 ✅ 7.5/10 | 前25% | #大语言模型 | #优化器 | #高效推理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ruotong Sun(论文中未提供机构信息) 通讯作者:未说明 作者列表:Ruotong Sun, Ermin Wei(均未说明所属机构) 💡 毒舌点评 该论文巧妙地将KL-Shampoo预条件器的理论特性(特征值谱的“尖峰-平坦”结构)与正交化操作相结合,提出了一种计算更高效、内存更友好的优化器变体,体现了理论指导工程优化的优雅思路。不过,其创新更多是针对现有框架的“精装修”,而非开辟新赛道;此外,在LLM预训练如此依赖算力和数据的时代,仅靠在100M-450M规模模型上的验证,能否稳定泛化到更大规模模型并说服工业界采用,仍需打上一个问号。 📌 核心摘要 要解决什么问题:现有利用梯度矩阵结构的LLM预训练优化器(如KL-Shampoo和Muon)各有优势但独立发展。KL-Shampoo通过KL散度最小化来估计克罗内克分解预条件器,效果显著但计算成本和内存占用较高。本文旨在设计一种新优化器,以更高效的方式获得与KL-Shampoo相当甚至更好的性能。 方法核心是什么:方法的核心是发现并利用KL-Shampoo预条件器的Kronecker因子具有“尖峰-平坦”的特征值谱结构。作者将其中一个因子限制在一个参数化族中:在一个被跟踪的低维子空间(维度为r)上保留完整的谱结构(完整的特征值和特征向量),而在剩余的(n-r)个方向上使用一个共享的特征值。对于后者,应用正交化操作,该操作在代数上能恢复完整KL-Shampoo的预条件器形式。 与已有方法相比新在哪里:新方法(Pro-KLShampoo)在两大前沿——Kronecker-factored preconditioning与gradient momentum orthogonalization——之间建立了结构性桥梁。它并非简单结合,而是基于对KL-Shampoo内在结构的深刻理解,通过参数化限制大幅降低了计算和内存开销,同时通过正交化保证了数学上的等价性,从而在实践中实现了更优的权衡。 主要实验结果如何:在GPT-2(124M, 350M)和LLaMA(134M, 450M)四个预训练规模上,Pro-KLShampoo在所有测试的子空间秩(r)下,在验证损失、峰值GPU内存使用和达到特定损失水平所需的墙钟时间这三个指标上均一致性优于基线KL-Shampoo。论文摘要中未提供具体数值,但强调了其全面优势。 实际意义是什么:该工作提供了一种理论上更清晰、实践中更高效的LLM预训练优化器。它能降低训练过程中的计算开销和内存需求,有望加速模型开发迭代并降低训练成本,对于资源受限的预训练场景尤其有价值。 主要局限性是什么:论文摘要未明确提及该方法的局限性。可能的局限包括:对“尖峰-平坦”特征值谱结构的假设在更多样化的任务或模型架构上的普适性;子空间维度r的选择需要调参;以及在更大规模(如数百亿至千亿参数)模型上的有效性和扩展性尚未验证。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 整体流程概述:Pro-KLShampoo是一个用于神经网络预训练的优化器。其完整流程是:在每个训练步骤,接收模型参数和计算得到的梯度,利用当前优化器状态(历史梯度动量)以及一个对预条件器矩阵结构的参数化估计,来更新模型参数。它本质上是一个单阶段的、基于一阶梯度信息构建二阶预条件信息的自适应学习率优化器。 主要组件/模块详解: ...

2026-05-08 · 更新于 2026-06-12 · 1 min · 196 words