跨模态对齐

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Yuchen Deng（清华大学深圳国际研究生院 / 鹏城实验室）通讯作者：Yuxing Han（清华大学深圳国际研究生院）作者列表：Yuchen Deng（清华大学深圳国际研究生院 / 鹏城实验室）、Zidang Cai（未说明具体机构）、Hai-Tao Zheng（清华大学深圳国际研究生院）、Jie Wang（清华大学深圳国际研究生院）、Feidiao Yang（鹏城实验室）、Yuxing Han（清华大学深圳国际研究生院） 💡 毒舌点评本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架，核心贡献在于认识到原生固定分块可能破坏跨模态对应关系，并据此设计了CPCR模块。方法设计思路清晰，实验结果也显示了在特定设置下优于SOTA（OmniZip）的效率-性能权衡。然而，框架的成功高度依赖一系列手动调节的超参数（如阈值τ，系数β，正则项λ_c），且这些参数的敏感性分析缺失，使得“训练免费”和“即插即用”的宣称大打折扣。此外，论文未开源代码，且在部分表格数据（如β值）上存在不一致，降低了其可信度和可复现性。方法虽然加速了预填充阶段，但端到端延迟提升有限，实际部署收益需打折扣。 📌 核心摘要要解决什么问题：现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元（chunks），容易破坏跨模态的对应关系和互补信息，从而在提升效率时难以稳定保持性能。方法核心是什么：提出了OmniRefine，一个训练免费的两阶段音视频token压缩框架。第一阶段（CPCR）利用帧-音频相似度和动态规划，将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段（MACC）在每个细化单元内进行模态感知的协作压缩：视频分支通过树结构策略压缩空间和时间冗余，音频分支在语义锚点约束下压缩连续声学内容，且音频的压缩预算会自适应地参考视频的保留率。与已有方法相比新在哪里：关键创新在于显式地优化了压缩单元的边界（通过CPCR）以保持跨模态对齐，并在此基础上设计了模态特异且预算协作的压缩策略（通过MACC）。不同于直接对单模态进行压缩或使用固定分块的方法，OmniRefine首先改善了数据组织的单元，为后续压缩提供了更优的基础。主要实验结果如何：在Qwen2.5-Omni-7B上，OmniRefine在WorldSense基准测试中，以44%的token保留率（31% FLOPs）达到了46.7%的准确率，几乎匹配了使用完整token的基线（46.8%）。在更激进的30%保留率下，仍能达到46.4%，优于OmniZip在更高保留率下的表现（45.3%-45.9%）。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。实际意义是什么：该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的，且兼容KV缓存重用，能降低多轮推理的预填充开销，对于在资源受限设备上实现实时音视频理解有潜在价值。主要局限性是什么：论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为，更根本的限制在于：1）缺乏超参数敏感性分析，其泛化能力和“即插即用”特性存疑；2）端到端加速收益有限；3）部分实验数据（如β值）在正文与附录中不一致，需澄清。 🔗 开源详情代码：论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”，表明未来会发布代码，但当前版本未提供URL。模型权重：论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现，但未提供 OmniRefine 本身压缩后的模型权重下载链接。数据集：论文中提及并使用了以下公开基准测试数据集，但未在正文中提供直接获取链接。具体名称为： WorldSense [18] VideoMME [13] AVUT [57] Demo：论文中未提及。复现材料：论文附录提供了详细的超参数设置表（表5）、算法伪代码（算法1）以及评估协议描述，这些信息有助于复现。但未提供完整的训练配置（本方法无需训练）等。论文中引用的开源项目： Qwen2.5-Omni：作为基础模型使用。论文引用了模型名，但未给出链接。 FastV：作为基线方法进行比较。论文引用了方法名，但未给出链接。 LMMs-Eval：在VideoMME评估中使用的框架。论文引用了框架名，但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是：输入原始编码后的音视频token序列 → 经过第一阶段（CPCR）进行跨模态对齐的分块优化 → 在第二阶段（MACC）于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列，用于LLM的预填充阶段。 ...