OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室) 通讯作者:Yuxing Han(清华大学深圳国际研究生院) 作者列表:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室)、Zidang Cai(未说明具体机构)、Hai-Tao Zheng(清华大学深圳国际研究生院)、Jie Wang(清华大学深圳国际研究生院)、Feidiao Yang(鹏城实验室)、Yuxing Han(清华大学深圳国际研究生院) 💡 毒舌点评 本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架,核心贡献在于认识到原生固定分块可能破坏跨模态对应关系,并据此设计了CPCR模块。方法设计思路清晰,实验结果也显示了在特定设置下优于SOTA(OmniZip)的效率-性能权衡。然而,框架的成功高度依赖一系列手动调节的超参数(如阈值τ,系数β,正则项λ_c),且这些参数的敏感性分析缺失,使得“训练免费”和“即插即用”的宣称大打折扣。此外,论文未开源代码,且在部分表格数据(如β值)上存在不一致,降低了其可信度和可复现性。方法虽然加速了预填充阶段,但端到端延迟提升有限,实际部署收益需打折扣。 📌 核心摘要 要解决什么问题:现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元(chunks),容易破坏跨模态的对应关系和互补信息,从而在提升效率时难以稳定保持性能。 方法核心是什么:提出了OmniRefine,一个训练免费的两阶段音视频token压缩框架。第一阶段(CPCR)利用帧-音频相似度和动态规划,将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段(MACC)在每个细化单元内进行模态感知的协作压缩:视频分支通过树结构策略压缩空间和时间冗余,音频分支在语义锚点约束下压缩连续声学内容,且音频的压缩预算会自适应地参考视频的保留率。 与已有方法相比新在哪里:关键创新在于显式地优化了压缩单元的边界(通过CPCR)以保持跨模态对齐,并在此基础上设计了模态特异且预算协作的压缩策略(通过MACC)。不同于直接对单模态进行压缩或使用固定分块的方法,OmniRefine首先改善了数据组织的单元,为后续压缩提供了更优的基础。 主要实验结果如何:在Qwen2.5-Omni-7B上,OmniRefine在WorldSense基准测试中,以44%的token保留率(31% FLOPs)达到了46.7%的准确率,几乎匹配了使用完整token的基线(46.8%)。在更激进的30%保留率下,仍能达到46.4%,优于OmniZip在更高保留率下的表现(45.3%-45.9%)。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。 实际意义是什么:该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的,且兼容KV缓存重用,能降低多轮推理的预填充开销,对于在资源受限设备上实现实时音视频理解有潜在价值。 主要局限性是什么:论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为,更根本的限制在于:1)缺乏超参数敏感性分析,其泛化能力和“即插即用”特性存疑;2)端到端加速收益有限;3)部分实验数据(如β值)在正文与附录中不一致,需澄清。 🔗 开源详情 代码:论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”,表明未来会发布代码,但当前版本未提供URL。 模型权重:论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现,但未提供 OmniRefine 本身压缩后的模型权重下载链接。 数据集:论文中提及并使用了以下公开基准测试数据集,但未在正文中提供直接获取链接。具体名称为: WorldSense [18] VideoMME [13] AVUT [57] Demo:论文中未提及。 复现材料:论文附录提供了详细的超参数设置表(表5)、算法伪代码(算法1)以及评估协议描述,这些信息有助于复现。但未提供完整的训练配置(本方法无需训练)等。 论文中引用的开源项目: Qwen2.5-Omni:作为基础模型使用。论文引用了模型名,但未给出链接。 FastV:作为基线方法进行比较。论文引用了方法名,但未给出链接。 LMMs-Eval:在VideoMME评估中使用的框架。论文引用了框架名,但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是:输入原始编码后的音视频token序列 → 经过第一阶段(CPCR)进行跨模态对齐的分块优化 → 在第二阶段(MACC)于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列,用于LLM的预填充阶段。 ...

2026-05-13 · 更新于 2026-05-19 · 4 min · 688 words

Retrieval-Based Speculative Decoding For Autoregressive Speech Synthesis

📄 Retrieval-Based Speculative Decoding For Autoregressive Speech Synthesis #语音合成 #检索式推测解码 #自回归模型 #推理加速 #免训练 ✅ 7.0/10 | 前50% | #语音合成 | #检索式推测解码 | #自回归模型 #推理加速 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Alan Chi-Man Lee(香港中文大学) 通讯作者:未说明 作者列表:Alan Chi-Man Lee(香港中文大学)、Wing-Sun Cheng(RISKSIS)、Calvin Chun-Kit Chan(香港中文大学) 💡 毒舌点评 亮点:论文提出的“检索+过滤接受”框架是一个思路清晰、工程实用性强的解决方案,成功将NLP领域的推测解码思路迁移到语音合成,并针对语音token的模糊性进行了有效适配,在强模型上验证了近30%的无损加速。短板:论文更像一个优秀的工程报告,理论创新有限;关键的实验对比缺失了直接竞争的相关工作(如[8][9]),说服力打了折扣;更重要的是,完全没有开源计划,对于一篇强调“即插即用”的方法论文来说,这几乎是致命缺陷。 🔗 开源详情 论文中未提及任何开源计划。代码、模型权重、数据集(除使用公开LibriTTS外)、Demo或详细复现指南均未提供。论文中引用的开源项目包括CosyVoice 2 [4]、LibriTTS [11]、ERes2Net [12] 和 UTMOS [13]。 📌 核心摘要 要解决什么问题:自回归语音合成(TTS)模型质量高但推理速度慢,因为其逐token生成的顺序性造成了严重的计算瓶颈。 方法核心是什么:提出一种免训练的“检索式推测解码”框架。它不使用一个小型的参数草稿模型,而是从一个预计算的语音token序列数据store中,根据当前上下文检索出候选续写序列(草稿)。然后,通过树注意力机制在目标模型中并行验证这些草稿,并采用一种结合概率匹配与重复感知的“过滤接受”逻辑来选择最终输出。 与已有方法相比新在哪里:与参数草稿模型(如Medusa)相比,它是免训练且即插即用的。与通用的检索推测解码(如REST)相比,它是首次应用于语音合成,并专门设计了处理语音token模糊性的接受策略。与此前的语音推测解码工作相比,它采用非参数检索而非参数草稿,并提出了更稳健的接受机制。 主要实验结果:在CosyVoice 2模型上,使用通用数据store可实现约19%的单token生成时间(TPT)缩减;使用针对特定说话人的数据store,可实现高达30%的TPT缩减,同时语音质量(SIM, MOS)、内容准确率(WER)与原始模型持平。关键消融实验数据如下表所示: 方法(c: 候选数,τ: 容忍度) SIM ↑ WER ↓ MOS ↑ LM-RTF ↓ TPT ↓ 基线 (原始 CosyVoice 2) 78.87 3.34 4.37 0.2034 6.30 本文 (c=16, τ=512, 通用) 78.74 3.39 4.38 0.1692 5.13 本文 (c=16, τ=512, 说话人特定) 79.15 3.37 4.41 0.1488 4.41 实际意义是什么:提供了一种无需修改模型、无需额外训练的加速方案,可直接应用于现有自回归TTS系统,对降低实时语音合成服务的延迟和成本有直接帮助。 主要局限性是什么:方法的加速效果高度依赖于数据store的覆盖度和匹配度(说话人特定场景效果更好);论文未与最新的语音推测解码工作进行直接对比;缺乏开源代码与模型,限制了实际复现与应用。 🏗️ 模型架构 本文并非提出一个新的生成模型,而是提出了一个加速现有自回归TTS模型推理的推测解码框架。其整体架构与流程如下: ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 203 words