推理加速 | 语音/音频论文速递

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Yuchen Deng（清华大学深圳国际研究生院 / 鹏城实验室）通讯作者：Yuxing Han（清华大学深圳国际研究生院）作者列表：Yuchen Deng（清华大学深圳国际研究生院 / 鹏城实验室）、Zidang Cai（未说明具体机构）、Hai-Tao Zheng（清华大学深圳国际研究生院）、Jie Wang（清华大学深圳国际研究生院）、Feidiao Yang（鹏城实验室）、Yuxing Han（清华大学深圳国际研究生院） 💡 毒舌点评本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架，核心贡献在于认识到原生固定分块可能破坏跨模态对应关系，并据此设计了CPCR模块。方法设计思路清晰，实验结果也显示了在特定设置下优于SOTA（OmniZip）的效率-性能权衡。然而，框架的成功高度依赖一系列手动调节的超参数（如阈值τ，系数β，正则项λ_c），且这些参数的敏感性分析缺失，使得“训练免费”和“即插即用”的宣称大打折扣。此外，论文未开源代码，且在部分表格数据（如β值）上存在不一致，降低了其可信度和可复现性。方法虽然加速了预填充阶段，但端到端延迟提升有限，实际部署收益需打折扣。 📌 核心摘要要解决什么问题：现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元（chunks），容易破坏跨模态的对应关系和互补信息，从而在提升效率时难以稳定保持性能。方法核心是什么：提出了OmniRefine，一个训练免费的两阶段音视频token压缩框架。第一阶段（CPCR）利用帧-音频相似度和动态规划，将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段（MACC）在每个细化单元内进行模态感知的协作压缩：视频分支通过树结构策略压缩空间和时间冗余，音频分支在语义锚点约束下压缩连续声学内容，且音频的压缩预算会自适应地参考视频的保留率。与已有方法相比新在哪里：关键创新在于显式地优化了压缩单元的边界（通过CPCR）以保持跨模态对齐，并在此基础上设计了模态特异且预算协作的压缩策略（通过MACC）。不同于直接对单模态进行压缩或使用固定分块的方法，OmniRefine首先改善了数据组织的单元，为后续压缩提供了更优的基础。主要实验结果如何：在Qwen2.5-Omni-7B上，OmniRefine在WorldSense基准测试中，以44%的token保留率（31% FLOPs）达到了46.7%的准确率，几乎匹配了使用完整token的基线（46.8%）。在更激进的30%保留率下，仍能达到46.4%，优于OmniZip在更高保留率下的表现（45.3%-45.9%）。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。实际意义是什么：该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的，且兼容KV缓存重用，能降低多轮推理的预填充开销，对于在资源受限设备上实现实时音视频理解有潜在价值。主要局限性是什么：论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为，更根本的限制在于：1）缺乏超参数敏感性分析，其泛化能力和“即插即用”特性存疑；2）端到端加速收益有限；3）部分实验数据（如β值）在正文与附录中不一致，需澄清。 🔗 开源详情代码：论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”，表明未来会发布代码，但当前版本未提供URL。模型权重：论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现，但未提供 OmniRefine 本身压缩后的模型权重下载链接。数据集：论文中提及并使用了以下公开基准测试数据集，但未在正文中提供直接获取链接。具体名称为： WorldSense [18] VideoMME [13] AVUT [57] Demo：论文中未提及。复现材料：论文附录提供了详细的超参数设置表（表5）、算法伪代码（算法1）以及评估协议描述，这些信息有助于复现。但未提供完整的训练配置（本方法无需训练）等。论文中引用的开源项目： Qwen2.5-Omni：作为基础模型使用。论文引用了模型名，但未给出链接。 FastV：作为基线方法进行比较。论文引用了方法名，但未给出链接。 LMMs-Eval：在VideoMME评估中使用的框架。论文引用了框架名，但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是：输入原始编码后的音视频token序列 → 经过第一阶段（CPCR）进行跨模态对齐的分块优化 → 在第二阶段（MACC）于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列，用于LLM的预填充阶段。 ...

📄 Retrieval-Based Speculative Decoding For Autoregressive Speech Synthesis #语音合成 #检索式推测解码 #自回归模型 #推理加速 #免训练 ✅ 7.0/10 | 前50% | #语音合成 | #检索式推测解码 | #自回归模型 #推理加速学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Alan Chi-Man Lee（香港中文大学）通讯作者：未说明作者列表：Alan Chi-Man Lee（香港中文大学）、Wing-Sun Cheng（RISKSIS）、Calvin Chun-Kit Chan（香港中文大学） 💡 毒舌点评亮点：论文提出的“检索+过滤接受”框架是一个思路清晰、工程实用性强的解决方案，成功将NLP领域的推测解码思路迁移到语音合成，并针对语音token的模糊性进行了有效适配，在强模型上验证了近30%的无损加速。短板：论文更像一个优秀的工程报告，理论创新有限；关键的实验对比缺失了直接竞争的相关工作（如[8][9]），说服力打了折扣；更重要的是，完全没有开源计划，对于一篇强调“即插即用”的方法论文来说，这几乎是致命缺陷。 🔗 开源详情论文中未提及任何开源计划。代码、模型权重、数据集（除使用公开LibriTTS外）、Demo或详细复现指南均未提供。论文中引用的开源项目包括CosyVoice 2 [4]、LibriTTS [11]、ERes2Net [12] 和 UTMOS [13]。 📌 核心摘要要解决什么问题：自回归语音合成（TTS）模型质量高但推理速度慢，因为其逐token生成的顺序性造成了严重的计算瓶颈。方法核心是什么：提出一种免训练的“检索式推测解码”框架。它不使用一个小型的参数草稿模型，而是从一个预计算的语音token序列数据store中，根据当前上下文检索出候选续写序列（草稿）。然后，通过树注意力机制在目标模型中并行验证这些草稿，并采用一种结合概率匹配与重复感知的“过滤接受”逻辑来选择最终输出。与已有方法相比新在哪里：与参数草稿模型（如Medusa）相比，它是免训练且即插即用的。与通用的检索推测解码（如REST）相比，它是首次应用于语音合成，并专门设计了处理语音token模糊性的接受策略。与此前的语音推测解码工作相比，它采用非参数检索而非参数草稿，并提出了更稳健的接受机制。主要实验结果：在CosyVoice 2模型上，使用通用数据store可实现约19%的单token生成时间（TPT）缩减；使用针对特定说话人的数据store，可实现高达30%的TPT缩减，同时语音质量（SIM, MOS）、内容准确率（WER）与原始模型持平。关键消融实验数据如下表所示：方法（c: 候选数，τ: 容忍度） SIM ↑ WER ↓ MOS ↑ LM-RTF ↓ TPT ↓ 基线 (原始 CosyVoice 2) 78.87 3.34 4.37 0.2034 6.30 本文 (c=16, τ=512, 通用) 78.74 3.39 4.38 0.1692 5.13 本文 (c=16, τ=512, 说话人特定) 79.15 3.37 4.41 0.1488 4.41 实际意义是什么：提供了一种无需修改模型、无需额外训练的加速方案，可直接应用于现有自回归TTS系统，对降低实时语音合成服务的延迟和成本有直接帮助。主要局限性是什么：方法的加速效果高度依赖于数据store的覆盖度和匹配度（说话人特定场景效果更好）；论文未与最新的语音推测解码工作进行直接对比；缺乏开源代码与模型，限制了实际复现与应用。 🏗️ 模型架构本文并非提出一个新的生成模型，而是提出了一个加速现有自回归TTS模型推理的推测解码框架。其整体架构与流程如下： ...