Segmentwise Pruning in Audio-Language Models

📄 Segmentwise Pruning in Audio-Language Models #音频问答 #音频场景理解 #token剪枝 #音频大模型 #模型评估 ✅ 7.0/10 | 前50% | #音频问答 | #token剪枝 | #音频场景理解 #音频大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明(根据作者列表顺序推测为Marcel Gibier,但未明确标注) 通讯作者:未说明 作者列表:Marcel Gibier(Inria Paris),Pierre Serrano(Inria Paris),Olivier Boeffard(Inria Paris),Raphaël Duroselle(AMIAD),Jean-François Bonastre(AMIAD) 💡 毒舌点评 亮点:方法设计巧妙且实用,通过简单的“分段再选Top-K”约束,显著缓解了标准Top-K可能导致的token时间聚集问题,在保持甚至提升性能的同时大幅降低计算开销,为ALM的推理加速提供了一个即插即用的轻量级方案。 短板:方法本质是启发式规则,并未深入探究“为什么分段有效”背后的表征理论,例如分段大小如何与音频内容的时长、节奏特性相匹配。实验仅展示了推理加速,未涉及训练成本或对模型微调的潜在影响。 📌 核心摘要 要解决什么问题:音频-语言模型(ALMs)通常将长序列的音频编码与文本嵌入拼接后送入Transformer,导致注意力机制的计算复杂度随序列长度平方增长,造成巨大的计算开销,限制了模型在长音频任务中的效率。 方法核心是什么:提出一种名为“分段Top-K(Segmentwise Top-K)”的轻量级推理时token剪枝方法。该方法将音频编码器的输出序列划分为S个时间片段,在每个片段内独立选择注意力得分最高的若干token,从而保证剪枝后的token在时间维度上分布均匀。 与已有方法相比新在哪里:不同于仅依赖注意力分数的全局Top-K(可能导致选中的token在时间上聚集)或基于相似度的合并方法(如VisionZip),本文方法显式地利用了音频信号的时序结构,通过分段约束在剪枝时促进了token的时间多样性,能更好地覆盖音频全程信息。 主要实验结果如何:在Audio Flamingo 3和Qwen2-Audio-7B两个模型上进行的实验表明,仅保留25%的音频token,模型在音频描述(CIDEr)和音频问答(准确率)等任务上的性能下降通常小于2%(相对最大下降)。例如,在Audio Flamingo 3上保留25% token时,在ClothoAQA和MMAU-total上甚至比原始模型性能略高。同时,推理预填充阶段速度提升显著(从162.54ms降至29.55ms,提速约5.5倍)。 实际意义是什么:该方法为部署和实时运行大型音频-语言模型提供了一种简单高效的优化途径,能大幅减少推理延迟和内存占用,而对核心任务性能影响极小,有助于推动ALM在边缘设备或低延迟场景的应用。 主要局限性是什么:分段数量S=10是启发式选择,对不同长度或特性的音频可能非最优;方法仅在推理时应用,未探索与训练结合是否能带来更大收益;未深入分析剪枝后丢失的信息类型以及对极长或复杂音频的鲁棒性。 🏗️ 模型架构 本文主要评估的是现有的音频-语言模型(Qwen2-Audio-7B-Instruct和Audio Flamingo 3),并提出应用于这些模型的剪枝方法。其架构(以所研究的模型为依据)如下: ...

2026-04-29

HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models

📄 HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models #音频大模型 #多模态模型 #token剪枝 #模型效率 🔥 8.0/10 | 前25% | #音频大模型 | #token剪枝 | #多模态模型 #模型效率 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Peize He (EPIC Lab, 上海交通大学; DAIL Tech) 通讯作者:未明确指定(论文提到“Corresponding author”,但未指明具体姓名或邮箱) 作者列表:Peize He¹², Yaodi Luo¹², Xiaoqian Liu¹³, Xuyang Liu¹⁴, Jiahang Deng¹, Yaosong Du², Li Bangyu², Xiyan Gui¹⁵, Yuxuan Chen¹, Linfeng Zhang¹ 机构列表:¹EPIC Lab, 上海交通大学; ²DAIL Tech; ³东北大学; ⁴四川大学; ⁵华中科技大学 💡 毒舌点评 亮点:论文对音频大模型中注意力头行为的“语义-声学异质性”观察非常敏锐,并由此设计出优雅的、免训练的动态路由机制(HeadRouter),在激进剪枝下性能反超原始模型,这是极具启发性的发现。 短板:实验高度依赖Qwen2.5-Omni系列和Phi-4-Multimodal,缺乏对其他主流架构(如Gemini Audio、GPT-4o)的验证;路由机制的校准依赖于少量样本,其泛化到全新音频任务类型的稳健性尚未充分论证。 ...

2026-04-28

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分 前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分 前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分 前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分 前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分 前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分 前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分 前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分 前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分 前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分 前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分 前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分 前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分 前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分 前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分 前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分 前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分 前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分 前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分 前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分 前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分 前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

2026-04-28