Token剪枝

Segmentwise Pruning in Audio-Language Models

📄 Segmentwise Pruning in Audio-Language Models #音频问答 #音频场景理解 #token剪枝 #音频大模型 #模型评估 ✅ 7.0/10 | 前50% | #音频问答 | #token剪枝 | #音频场景理解 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明（根据作者列表顺序推测为Marcel Gibier，但未明确标注）通讯作者：未说明作者列表：Marcel Gibier（Inria Paris），Pierre Serrano（Inria Paris），Olivier Boeffard（Inria Paris），Raphaël Duroselle（AMIAD），Jean-François Bonastre（AMIAD） 💡 毒舌点评亮点：方法设计巧妙且实用，通过简单的“分段再选Top-K”约束，显著缓解了标准Top-K可能导致的token时间聚集问题，在保持甚至提升性能的同时大幅降低计算开销，为ALM的推理加速提供了一个即插即用的轻量级方案。短板：方法本质是启发式规则，并未深入探究“为什么分段有效”背后的表征理论，例如分段大小如何与音频内容的时长、节奏特性相匹配。实验仅展示了推理加速，未涉及训练成本或对模型微调的潜在影响。 🔗 开源详情代码：论文中未提及代码链接。模型权重：使用了公开的预训练模型权重（Whisper-large-v3, Qwen2-Audio-7B-Instruct, Audio Flamingo 3），但未提及本次研究产生的新模型权重。数据集：使用了公开的标准基准数据集（Clotho v2, AudioCaps, ClothoAQA, MMAU）。 Demo：论文中未提及在线演示。复现材料：论文详细描述了实验设置（模型版本、音频处理参数、解码方式、关键超参数S=10），这为复现提供了良好基础。但未提供具体的脚本、配置文件或结果检查点。论文中引用的开源项目：Whisper-large-v3 (语音识别模型), Qwen2-Audio (音频语言模型), Audio Flamingo 3 (音频语言模型), Sentence-BERT (句子嵌入模型), VisionZip (视觉token剪枝方法)。 📌 核心摘要要解决什么问题：音频-语言模型（ALMs）通常将长序列的音频编码与文本嵌入拼接后送入Transformer，导致注意力机制的计算复杂度随序列长度平方增长，造成巨大的计算开销，限制了模型在长音频任务中的效率。方法核心是什么：提出一种名为“分段Top-K（Segmentwise Top-K）”的轻量级推理时token剪枝方法。该方法将音频编码器的输出序列划分为S个时间片段，在每个片段内独立选择注意力得分最高的若干token，从而保证剪枝后的token在时间维度上分布均匀。与已有方法相比新在哪里：不同于仅依赖注意力分数的全局Top-K（可能导致选中的token在时间上聚集）或基于相似度的合并方法（如VisionZip），本文方法显式地利用了音频信号的时序结构，通过分段约束在剪枝时促进了token的时间多样性，能更好地覆盖音频全程信息。主要实验结果如何：在Audio Flamingo 3和Qwen2-Audio-7B两个模型上进行的实验表明，仅保留25%的音频token，模型在音频描述（CIDEr）和音频问答（准确率）等任务上的性能下降通常小于2%（相对最大下降）。例如，在Audio Flamingo 3上保留25% token时，在ClothoAQA和MMAU-total上甚至比原始模型性能略高。同时，推理预填充阶段速度提升显著（从162.54ms降至29.55ms，提速约5.5倍）。实际意义是什么：该方法为部署和实时运行大型音频-语言模型提供了一种简单高效的优化途径，能大幅减少推理延迟和内存占用，而对核心任务性能影响极小，有助于推动ALM在边缘设备或低延迟场景的应用。主要局限性是什么：分段数量S=10是启发式选择，对不同长度或特性的音频可能非最优；方法仅在推理时应用，未探索与训练结合是否能带来更大收益；未深入分析剪枝后丢失的信息类型以及对极长或复杂音频的鲁棒性。 🏗️ 模型架构本文主要评估的是现有的音频-语言模型（Qwen2-Audio-7B-Instruct和Audio Flamingo 3），并提出应用于这些模型的剪枝方法。其架构（以所研究的模型为依据）如下： ...

HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models

📄 HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models #音频大模型 #多模态模型 #token剪枝 #模型效率 🔥 8.0/10 | 前25% | #音频大模型 | #token剪枝 | #多模态模型 #模型效率 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Peize He (EPIC Lab, 上海交通大学; DAIL Tech) 通讯作者：未明确指定（论文提到“Corresponding author”，但未指明具体姓名或邮箱）作者列表：Peize He¹², Yaodi Luo¹², Xiaoqian Liu¹³, Xuyang Liu¹⁴, Jiahang Deng¹, Yaosong Du², Li Bangyu², Xiyan Gui¹⁵, Yuxuan Chen¹, Linfeng Zhang¹ 机构列表：¹EPIC Lab, 上海交通大学; ²DAIL Tech; ³东北大学; ⁴四川大学; ⁵华中科技大学 💡 毒舌点评亮点：论文对音频大模型中注意力头行为的“语义-声学异质性”观察非常敏锐，并由此设计出优雅的、免训练的动态路由机制（HeadRouter），在激进剪枝下性能反超原始模型，这是极具启发性的发现。短板：实验高度依赖Qwen2.5-Omni系列和Phi-4-Multimodal，缺乏对其他主流架构（如Gemini Audio、GPT-4o）的验证；路由机制的校准依赖于少量样本，其泛化到全新音频任务类型的稳健性尚未充分论证。 ...

语音/音乐/音频论文速递 2026-04-28

语音/音乐/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分分档主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...