Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions

📄 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions #音频问答 #强化学习 #多模态模型 #基准测试 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sam Blouir (Amazon) 通讯作者:未说明 作者列表:Sam Blouir (Amazon), Ganesh Ramachandra Kini (Amazon), Qingming Tang (Amazon), Raphael Petegrosso (Amazon), Chieh-Chi Kao (Amazon), Ankur Gandhe (Amazon), Chao Wang (Amazon) 💡 毒舌点评 亮点:论文提出的“概率比奖励”设计巧妙,将传统RLVR中非黑即白的准确率信号转化为一个能反映模型对正确答案相对置信度的连续信号,为“接近正确”但未得分的样本提供了有效学习信号,这在奖励稀疏的强化学习微调中至关重要。 短板:所有实验仅在单一的MMAU基准上完成,且基础模型固定为Qwen2.5-Omni-7B,该方法在其他音频任务(如开放式QA、不同声源类型)或不同规模的模型上的效果和泛化能力有待验证。 🔗 开源详情 代码:论文中���提及代码仓库链接。 模型权重:未提及公开的微调模型权重。 数据集:使用了公开的数据集(EchoInk-R1基于AVQA,MMAU),但未说明如何获取其特定版本。 Demo:未提及。 复现材料:提供了非常详细的复现信息,包括:基础模型(Qwen2.5-Omni-7B)、训练数据(EchoInk-R1)、评估数据集(MMAU test-mini)、生成长度(64 tokens)、采样温度(1.0)、评估协议(8次采样多数投票)、奖励函数完整公式。这为复现其核心实验提供了充分指导。 论文中引用的开源项目:引用了多个开源模型和数据集,如Qwen2.5-Omni, AVQA, MMAU, EchoInk-R1。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:现有的强化学习与验证奖励(RLVR)方法在训练音频问答系统时,通常只使用格式是否正确和答案是否完全匹配的二元奖励信号,这种稀疏的信号对模型几乎正确但未得分的样本无法提供有效的学习指导。 方法核心是什么:提出了一种新的基于对数几率(log-odds)的奖励函数。该函数在生成推理链()之后、答案文本生成之前,计算模型对正确答案选项与最可能的错误答案选项的标准化对数似然之差,以此作为奖励信号。这鼓励模型通过推理链增加正确答案相对于最强干扰项的概率优势。 与已有方法相比新在哪里:新在将音频问答的RL训练奖励从简单的二元正确性/格式惩罚,升级为利用模型自身策略分布的“软”概率比奖励。这提供了更密集、更有方向性的梯度信号。 主要实验结果如何:在MMAU测试集(mini版)上,使用所提方法微调的模型平均准确率达到78.3%,优于使用传统“准确率+格式”奖励的基线(76.3%)和未微调的Qwen2.5-Omni-7B基础模型(70.4%)。消融实验表明,“log-odds”奖励变体优于“概率”奖励和“提升”奖励。 关键实验结果表格: 模型/方法 基础模型 Sound (%) Music (%) Speech (%) 平均准确率 (%) log-odds (ours) Qwen2.5-Omni 83.4 73.3 78.2 78.3 accuracy + format (our setup) Qwen2.5-Omni 81.6 70.9 76.4 76.3 Omni-R1 [9] Qwen2.5-Omni 81.7 73.4 76.0 77.0 Qwen2.5-Omni-7B (base) – 77.8 61.1 72.4 70.4 Step-Audio-2 [17] – 84.0 73.6 75.1 77.6 消融实验表格: 奖励变体 平均准确率 (%) — — log-odds (ours) 78.3 (从主表) prob 77.2 lift 77.0 实际意义是什么:为训练更有效的多选题音频问答系统提供了一种新的、更优的强化学习奖励设计范式,证明了在RLVR框架下,超越二元信号的似然度引导能提升模型的音频推理能力。 主要局限性是什么:1) 验证实验仅限于MMAU这一个复杂的音频问答基准;2) 方法的核心组件(对数似然计算)依赖于一个具有较强基础能力的预训练多模态大模型(如Qwen2.5-Omni),在更小的模型上是否有效未知;3) 论文未讨论该奖励函数对开放式生成任务(如音频描述)的适用性。 🏗️ 模型架构 论文并未提出一个新的端到端模型架构,而是设计了一个针对现有多模态大模型(M-LLM)进行强化学习微调的训练框架。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 367 words

FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference

📄 FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference #音频问答 #大语言模型的压缩与加速 #音视频 #多模态模型 ✅ 7.0/10 | 前25% | #音频问答 | #大语言模型的压缩与加速 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(韩国科学技术院,Korea Advanced Institute of Science and Technology, South Korea) 通讯作者:未说明 作者列表:Chaeyoung Jung(韩国科学技术院)、Youngjoon Jang(韩国科学技术院)、Seungwoo Lee(韩国科学技术院)、Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点:本文敏锐地发现了现有token剪枝研究在音视频大语言模型领域的空白,并首次提出了系统性的解决方案,其两阶段剪枝策略(全局剪枝+精细剪枝)在实验上取得了显著且一致的效率提升(>40% FLOPs降低),且不损害甚至能提升性能,这对于推动此类昂贵模型的实际部署具有明确的工程价��。 短板:技术路线本质上是对视觉token剪枝方法的“移植”和“拼接”(全局剪枝基于视觉工作常见的注意力回溯,精细剪枝基于LLM剪枝中常见的最后token分析),在剪枝机制本身上创新有限。此外,实验对比集中在自身设定的不同剪枝策略上,缺乏与更多元、更强的基线方法(如其他可能适用于多模态的剪枝或加速技术)的横向比较。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中使用的AVQA、MUSIC-AVQA、AVHBench为公开数据集,但论文未说明具体获取或预处理方式。 Demo:未提及。 复现材料:论文给出了关键超参数(剪枝层选择、P=20%、保留的token数量),描述了剪枝算法的公式和步骤,但未提供完整的配置文件、脚本或检查点。 论文中引用的开源项目:引用了VideoLLaMA2和video-SALMONN2作为基线模型,并链接了VideoLLaMA2的GitHub仓库(https://github.com/DAMO-NLP-SG/VideoLLaMA2/tree/audio_visual),但这是基线模型的仓库,而非FastAV的实现。 📌 核心摘要 要解决的问题:音视频大语言模型在处理包含音频、视频、文本的多模态输入时,token数量巨大,导致推理时内存消耗和计算成本剧增,限制了其实际应用。 方法核心:提出FastAV,一个两阶段的推理时token剪枝框架。第一阶段在中间层进行“全局剪枝”,利用注意力回溯机制分析token重要性,移除位置靠后、影响力较弱的大部分token(如2/3);第二阶段在后续层进行“精细剪枝”,基于最后一个查询token的注意力权重,逐层迭代移除最不重要的20% token。 与已有方法相比新在哪里:这是首个专门为音视频大语言模型设计的token剪枝框架。不同于直接应用在纯文本LLM或视觉-语言模型上的方法,FastAV综合考虑了音视频模态的特点,并通过注意力回溯揭示了此类模型在中间层后注意力集中于早期token的“锚定”模式,从而设计了针对性的剪枝策略。 主要实验结果:在VideoLLaMA2和video-SALMONN2两个模型上,FastAV将理论FLOPs降低了40%以上(见表1),同时推理速度提升约30%,内存占用降低。在AVQA, MUSIC-AVQA, AVHBench三个基准测试上,性能保持持平甚至有所提升(例如在AVHBench的AV匹配任务上,VideoLLaMA2的准确率从57.8%提升至69.0%)。消融实验表明,基于注意力回溯的全局剪枝策略优于随机剪枝和基于原始注意力权重的策略(表2),精细剪枝的剪枝比例P=20%为最优(表4)。 实际意义:使音视频大语言模型能够更高效地处理长视频、复杂音频等多模态长上下文输入,降低了部署的硬件门槛和延迟,有助于推动其在实时交互、边缘设备等场景的应用。 主要局限性:剪枝策略的有效性依赖于“注意力在中间层后集中于早期token”这一观察,该模式是否在所有音视频大语言模型和任务中普遍存在尚不明确。此外,论文未探讨该剪枝框架对模型训练或微调阶段的影响,也未提供理论保证证明性能不会在更极端的压缩下下降。 🏗️ 模型架构 FastAV本身并非一个独立的音视频大语言模型,而是一个应用于现有模型(如VideoLLaMA2、video-SALMONN2)推理阶段的加速框架。其整体流程如图3所示。 图3:FastAV框架概览。输入序列包含视频(X_vis)、音频(X_aud)和文本(X_lang)token。整体推理过程(a)在中间层(L/2)进行全局剪枝,在后续层进行精细剪枝。剪枝机制(b)展示了全局剪枝依据注意力回溯,精细剪枝依据最后查询token的注意力分析。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 297 words

ICASSP 2026 - 音频问答 论文列表

ICASSP 2026 - 音频问答 共 15 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Enhancing Audio Question-Answering Performance Through Log-L 8.5分 前25% 🥈 DSpAST: Disentangled Representations for Spatial Audio Reaso 8.0分 前25% 🥉 Improving Audio Question Answering with Variational Inferenc 7.5分 前25% 4. TAU: A Benchmark for Cultural Sound Understanding Beyond Sem 7.5分 前25% 5. Efficient Audio-Visual Inference Via Token Clustering And Mo 7.5分 前25% 6. SightSound-R1: Cross-Modal Reasoning Distillation from Visio 7.5分 前25% 7. Keeping Models Listening: Segment- and time-aware attention 7.5分 前25% 8. Benchmarking Humans And Machines On Complex Multilingual Spe 7.5分 前25% 9. FastAV: Efficient Token Pruning for Audio-Visual Large Langu 7.0分 前25% 10. AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework f 7.0分 前25% 11. Segmentwise Pruning in Audio-Language Models 7.0分 前50% 12. Teaching Audio Models to Reason: A Unified Framework for Sou 7.0分 前25% 13. AQUA-Bench: Beyond finding answers to knowing when there are 7.0分 前50% 14. Test-Time Scaling for Auditory Cognition in Audio Language M 7.0分 前25% 15. Advancing Speech Summarization in Multi-Modal LLMs with Rein 7.0分 前50% 📋 论文详情 🥇 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试 ...

2026-04-29 · 更新于 2026-06-12 · 9 min · 1795 words

Improving Audio Question Answering with Variational Inference

📄 Improving Audio Question Answering with Variational Inference #音频问答 #变分推断 #音频大模型 #模型校准 #选择性预测 ✅ 7.5/10 | 前25% | #音频问答 | #变分推断 | #音频大模型 #模型校准 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haolin Chen(Idiap Research Institute, Martigny, Switzerland; EPFL, Lausanne, Switzerland) 通讯作者:未说明 作者列表:Haolin Chen(Idiap Research Institute, EPFL) 💡 毒舌点评 论文亮点在于成功地将高效的变分推断优化器(IVON)应用于音频问答任务,不仅略微提升了准确率,更显著改善了模型的校准特性和选择性预测能力,这对构建可信赖的AI系统非常实用。但略显单薄的是,其核心贡献本质上是“把一个已知的好工具用在一个新场景”,而非提出针对音频问答特性设计的新方法,创新维度稍显单一。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的模型权重(包括基线模型和微调后模型)。基线模型Qwen2.5-Omni本身可能是开源的(论文未确认)。 数据集:使用了DCASE 2025 AQA数据集,论文未明确说明其是否公开以及如何获取,但DCASE挑战赛数据集通常公开。 Demo:未提及。 复现材料:提供了非常充分的训练细节、配置和超参数设置,有利于复现。 论文中引用的开源项目:主要引用了作为基础模型的 Qwen2.5-Omni [6] 和作为微调方法的 LoRA [25]。优化器 IVON [14] 本身也是一项开源工作。 📌 核心摘要 要解决的问题:多模态大模型(如音频问答模型)在微调后常常过于自信(overconfident),预测置信度不能反映真实准确率(校准差),导致在需要可靠判断的风险敏感应用中不可信。 方法核心:采用变分推断(VI)框架,使用高效的优化器IVON替代传统的AdamW,对大型音频语言模型Qwen2.5-Omni进行参数高效微调(LoRA)。IVON在训练中对模型权重的后验分布进行建模,从而捕获参数不确定性。 与已有方法相比新在哪里:区别于传统优化器(如Adam)提供点估计,以及Monte Carlo Dropout等事后不确定性估计方法,IVON在训练过程中即内建了不确定性建模,且计算成本接近Adam。本文首次将其系统地应用于多模态音频问答任务。 主要实验结果:在DCASE 2025 AQA数据集(BQA, TSQA, CQA三个子集)上,与AdamW基线相比: 准确率(ACC):IVON(均值或MC-8)平均从80.45%提升至80.97%。 校准:ECE(越低越好)从16.2显著降至10.0(IVON MC-8),NLL和Brier分数同样改善。 选择性预测:在拒答1%最不确定样本时(C@1%),覆盖准确率从3.8%(AdamW)大幅提升至19.5%(IVON MC-8),风险-覆盖曲线下面积(AUC)从7.4降至5.8。 消融实验表明,增加蒙特卡洛(MC)采样数能持续改善校准,而调整后验分布的温度则在准确率和校准间存在权衡。 实际意义:为多模态模型提供了更可靠的置信度估计,使其能在不确定时主动拒绝回答(选择性预测),从而提升系统在医疗、安防等风险敏感领域的应用安全性。 主要局限性:研究仅限于多选题形式的音频问答(单次令牌预测),未验证在开放式生成任务(如自由问答、语音合成)中的效果。 🏗️ 模型架构 本文未提出新的模型架构,而是将变分推断优化器应用于现有的大型音频语言模型(LALM)进行微调。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 377 words

Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time

📄 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time #音频问答 #音频分类 #音频大模型 #推理时调整 ✅ 7.5/10 | 前25% | #音频问答 | #推理时调整 | #音频分类 #音频大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hangyu Du(新加坡国立大学,设计与工程学院) 通讯作者:Jingxing Zhong(福州大学,明智国际工程学院) 作者列表:Hangyu Du(新加坡国立大学,设计与工程学院),Jingxing Zhong(福州大学,明智国际工程学院)(论文注明两位作者贡献相等)。 💡 毒舌点评 亮点:精准地诊断出ALLMs解码时“听着听着就忘了音频”的顽疾,并用一个免训练、近乎零开销的“解码时注意力微调”插件(AttnAdapter)显著缓解了这个问题,效果立竿见影,实用性很强。 短板:方法更像是对症下药的“经验性工程”,虽然能“work”,但对于注意力漂移的根本原因(为何系统令牌会成为sink?为何音频注意力会衰减?)缺乏更深层次的理论或神经机制层面的剖析,略显“知其然而不知其所以然”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验使用公开的MMAU-mini和AIR-Bench数据集,但论文中未提及数据集获取方式或自有数据。 Demo:未提及。 复现材料:提供了Algorithm 1伪代码和完整的超参数设置,足以复现核心方法。但缺乏具体代码实现和运行脚本。 引用的开源项目:论文未提及直接依赖的开源项目代码。 📌 核心摘要 要解决什么问题:本文发现并研究了音频大语言模型(ALLMs)在自回归解码过程中普遍存在的“注意力路由退化”现象。随着解码进行,模型对音频输入(Audio Tokens)的注意力会系统性衰减,转而过度依赖语言先验和早期生成的“汇聚”令牌,导致回答偏离输入音频,产生幻觉。 方法核心是什么:提出AttnAdapter,一个训练无关、可插拔的模块。它在解码的每一步,对注意力计算中的原始对数几率(logits)进行分段、时间感知的乘性重缩放。具体包含三个组件:(1) 系统令牌汇聚抑制,(2) 音频关键点时序增强,(3) 局部输出窗口稳定。 与已有方法相比新在哪里:与现有方法(如EAH、MemVR)相比,AttnAdapter的特点是:完全在解码时操作,无需训练或修改模型架构;设计上明确针对音频模态的序列性、密集性特点,提出时间感知的增强策略;并且组合了多种干预(抑制、增强、稳定)以协同工作。 主要实验结果如何:在MMAU-mini和AIR-Bench两个基准上,AttnAdapter为LLaMa-Omni、Qwen-Omni和Audio Flamingo 3三个模型带来了稳定的性能提升。 在LLaMa-Omni上,MMAU-mini平均准确率从0.71提升至0.85(+14%),AIR-Bench平均准确率从0.69提升至0.82(+13%)。 在Qwen-Omni上,MMAU-mini平均准确率从0.73提升至0.87(+14%),AIR-Bench平均准确率从0.71提升至0.84(+13%)。 在Audio Flamingo 3上,MMAU-mini平均准确率从0.73提升至0.87(+14%),AIR-Bench平均准确率从0.70提升至0.83(+13%)。 所有方法中,AttnAdapter均取得了最高的分数,尤其在“混合音频”子任务上改进明显。 实际意义是什么:提供了一个即插即用、计算开销极低(延迟增加<2%)的解决方案,可以增强现有ALLMs的音频接地能力,使其在长序列对话和推理中能持续“听”音频,减少基于文本先验的幻觉,提升在音频问答、分析等实际应用中的可靠性和准确性。 主要局限性是什么:(1) 方法的有效性依赖于经验调优的超参数(σ, η, g, w, β),对于新模型或任务可能需要重新搜索。(2) 论文主要关注准确率提升,对模型生成文本的流畅性、连贯性等质量指标的详细分析不足。(3) 机制解释偏经验性,缺乏对ALLMs内部信息流动的深层理论分析。 🏗️ 模型架构 本文提出的AttnAdapter并非一个完整的端到端模型,而是一个推理时的插件模块,旨在修改现有基于解码器的音频大语言模型(ALLMs)在解码阶段的注意力计算过程。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 319 words

Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding

📄 Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding #多模态模型 #音频问答 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #音频问答 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianze Xia†, Hongcheng Liu† (上海交通大学) 通讯作者:Yu Wang* (上海交通大学) 作者列表:Tianze Xia†(上海交通大学), Hongcheng Liu†(上海交通大学), Lina Yang(上海交通大学), Yu Wang*(上海交通大学) 💡 毒舌点评 这篇论文的亮点在于清晰地识别出语言先验在“输入层”和“层间”的两个不同作用机制,并设计了一个优雅、即插即用的统一解码公式来同时抑制它们,在多个视觉和音频基准上取得了稳健提升。短板在于其核心论证“动态层选择”策略的理论基础和普适性略显薄弱(为何选择最大差异度层作为先验代表?),且缺少对失败案例的深入分析,使得方法更像一个“work well”的工程方案而非深刻揭示机制。 🔗 开源详情 代码:论文中未提及代码链���。 模型权重:未提及。 数据集:使用了公开基准(POPE, MSCOCO 2014, MMAU, MMAR),但论文未提及BCD方法本身是否附带新的数据集。 Demo:未提及。 复现材料:论文详细给出了BCD的算法流程(公式1-3)和关键超参数(k, n, α, β),但未提供完整的配置文件或训练/评估日志。 论文中引用的开源项目:实验基于以下开源模型:LLaVA-1.5-7B, Qwen2.5-VL-7B, Qwen2-Audio-7B-Instruct, MU-LLaMA-7B。 论文中未提及开源计划。 📌 核心摘要 要解决什么问题:多模态大语言模型(MLLM)在生成时严重依赖语言先验(文本提示和模型内部的统计规律),导致输出与视觉/音频证据不符的幻觉现象。 方法核心是什么:提出双层对比解码(BCD),一种无需训练的即插即用解码策略。它在每个解码步骤同时进行两项修正:a) 输入层修正:对比完整多模态输入和纯文本输入的输出分布,以强化多模态证据的引导;b) 层间修正:对比模型最终层输出和通过动态策略选择的中间层输出,以抑制信息在层间传播中累积的语言先验。 与已有方法相比新在哪里:现有对比解码方法(如VCD, SID)通常只关注单一来源的先验(如图像扰动或内部状态),而BCD首次将输入层和层间这两个关键阶段的先验抑制统一到一个框架内,并通过动态层选择策略自适应地定位内部先验的最强表征层。 主要实验结果如何:BCD在多个主流模型(LLaVA-1.5, Qwen2.5-VL, Qwen2-Audio, MU-LLaMA)和基准上均提升了性能。具体地,在POPE(视觉幻觉)基准上,LLaVA-1.5模型的平均准确率从83.01%提升至87.32%;在MMAR(音频理解)基准上,Qwen2-Audio模型的平均准确率从30.00%提升至36.90%。消融实验证实了两个修正组件的互补性。 模型 基准 设置 基线 Greedy (Acc./F1) BCD (Acc./F1) LLaVA-1.5 POPE Rand. 87.17 / 85.64 90.57 / 90.33 LLaVA-1.5 POPE Pop. 82.76 / 83.36 87.83 / 87.87 LLaVA-1.5 POPE Adv. 79.11 / 80.92 83.57 / 84.28 Qwen2.5-VL POPE Adv. 84.20 / 81.63 86.27 / 84.67 实际意义是什么:提供了一种实用、有效、无需额外训练的解码改进方案,可直接应用于现有MLLM,增强其输出的可靠性和可信度,对部署在医疗、安防等关键领域的多模态AI系统具有重要价值。 主要局限性是什么:a) 方法引入了额外的推理计算开销(需要运行前向传播以获取L_text和L_inter);b) 动态层选择策略的有效性可能依赖于模型结构,其普适性有待更多验证;c) 超参数α和β需要针对不同任务/模态进行调整,缺乏自动化的选择机制。 🏗️ 模型架构 本文提出的BCD并非一个新的多模态模型架构,而是一种应用于现有MLLM(如LLaVA, Qwen-VL/Audio)的解码策略。其核心架构是统一的对比解码框架,流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 388 words

Segmentwise Pruning in Audio-Language Models

📄 Segmentwise Pruning in Audio-Language Models #音频问答 #音频场景理解 #token剪枝 #音频大模型 #模型评估 ✅ 7.0/10 | 前50% | #音频问答 | #token剪枝 | #音频场景理解 #音频大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明(根据作者列表顺序推测为Marcel Gibier,但未明确标注) 通讯作者:未说明 作者列表:Marcel Gibier(Inria Paris),Pierre Serrano(Inria Paris),Olivier Boeffard(Inria Paris),Raphaël Duroselle(AMIAD),Jean-François Bonastre(AMIAD) 💡 毒舌点评 亮点:方法设计巧妙且实用,通过简单的“分段再选Top-K”约束,显著缓解了标准Top-K可能导致的token时间聚集问题,在保持甚至提升性能的同时大幅降低计算开销,为ALM的推理加速提供了一个即插即用的轻量级方案。 短板:方法本质是启发式规则,并未深入探究“为什么分段有效”背后的表征理论,例如分段大小如何与音频内容的时长、节奏特性相匹配。实验仅展示了推理加速,未涉及训练成本或对模型微调的潜在影响。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:使用了公开的预训练模型权重(Whisper-large-v3, Qwen2-Audio-7B-Instruct, Audio Flamingo 3),但未提及本次研究产生的新模型权重。 数据集:使用了公开的标准基准数据集(Clotho v2, AudioCaps, ClothoAQA, MMAU)。 Demo:论文中未提及在线演示。 复现材料:论文详细描述了实验设置(模型版本、音频处理参数、解码方式、关键超参数S=10),这为复现提供了良好基础。但未提供具体的脚本、配置文件或结果检查点。 论文中引用的开源项目:Whisper-large-v3 (语音识别模型), Qwen2-Audio (音频语言模型), Audio Flamingo 3 (音频语言模型), Sentence-BERT (句子嵌入模型), VisionZip (视觉token剪枝方法)。 📌 核心摘要 要解决什么问题:音频-语言模型(ALMs)通常将长序列的音频编码与文本嵌入拼接后送入Transformer,导致注意力机制的计算复杂度随序列长度平方增长,造成巨大的计算开销,限制了模型在长音频任务中的效率。 方法核心是什么:提出一种名为“分段Top-K(Segmentwise Top-K)”的轻量级推理时token剪枝方法。该方法将音频编码器的输出序列划分为S个时间片段,在每个片段内独立选择注意力得分最高的若干token,从而保证剪枝后的token在时间维度上分布均匀。 与已有方法相比新在哪里:不同于仅依赖注意力分数的全局Top-K(可能导致选中的token在时间上聚集)或基于相似度的合并方法(如VisionZip),本文方法显式地利用了音频信号的时序结构,通过分段约束在剪枝时促进了token的时间多样性,能更好地覆盖音频全程信息。 主要实验结果如何:在Audio Flamingo 3和Qwen2-Audio-7B两个模型上进行的实验表明,仅保留25%的音频token,模型在音频描述(CIDEr)和音频问答(准确率)等任务上的性能下降通常小于2%(相对最大下降)。例如,在Audio Flamingo 3上保留25% token时,在ClothoAQA和MMAU-total上甚至比原始模型性能略高。同时,推理预填充阶段速度提升显著(从162.54ms降至29.55ms,提速约5.5倍)。 实际意义是什么:该方法为部署和实时运行大型音频-语言模型提供了一种简单高效的优化途径,能大幅减少推理延迟和内存占用,而对核心任务性能影响极小,有助于推动ALM在边缘设备或低延迟场景的应用。 主要局限性是什么:分段数量S=10是启发式选择,对不同长度或特性的音频可能非最优;方法仅在推理时应用,未探索与训练结合是否能带来更大收益;未深入分析剪枝后丢失的信息类型以及对极长或复杂音频的鲁棒性。 🏗️ 模型架构 本文主要评估的是现有的音频-语言模型(Qwen2-Audio-7B-Instruct和Audio Flamingo 3),并提出应用于这些模型的剪枝方法。其架构(以所研究的模型为依据)如下: ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 488 words

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

📄 SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models #音频问答 #知识蒸馏 #多模态模型 #迁移学习 #音视频 ✅ 7.5/10 | 前25% | #音频问答 | #知识蒸馏 | #多模态模型 #迁移学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者列表排序未明确指定第一作者) 通讯作者:未说明 作者列表:Qiaolin Wang(Columbia University, New York, NY, USA)、Xilin Jiang(Columbia University, New York, NY, USA)、Linyang He(Columbia University, New York, NY, USA)、Junkai Wu(University of Washington, Seattle, WA, USA)、Nima Mesgarani(Columbia University, New York, NY, USA) 💡 毒舌点评 亮点在于巧妙地利用“视觉可听”的假设,将强大的视觉语言模型(LVLM)作为“免费的”教师来生成音频推理数据,从而绕过了音频链式思考(CoT)数据稀缺的瓶颈,思路清晰且实用。短板则是这一核心假设存在天然局限,导致生成的推理链可能基于视觉臆测而非真实音频内容(论文中也承认了语音、音乐任务性能下降),且方法的最终效果高度依赖外部强大LVLM和验证模型的能力,并非完全独立。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 357 words

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics #音频问答 #基准测试 #数据集 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #模型评估 学术质量 0.85/7 | 选题价值 0.75/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yi-Cheng Lin (National Taiwan University) 通讯作者:论文中未明确指定通讯作者 作者列表:Yi-Cheng Lin¹, Yu-Hua Chen², Jia-Kai Dong¹, Yueh-Hsuan Huang¹, Szu-Chi Chen¹, Yu-Chen Chen¹, Chih-Yao Chen¹, Yu-Jung Lin¹, Yu-Ling Chen¹, Zih-Yu Chen¹, I-Ning Tsai¹, Hsiu-Hsuan Wang¹, Ho-Lam Chung¹, Ke-Han Lu¹, Hung-yi Lee¹ (¹National Taiwan University, ²University of Toronto) 💡 毒舌点评 该论文的亮点在于它敏锐地指出了当前音频-语言模型评估体系中一个被忽视的“文化盲区”,并为此提供了一个设计精巧、收集过程透明的高质量本地化基准,为推动更公平的多模态评估铺了路。短板则在于,它本质上是一个评估工具(Benchmark),而非解决该问题的算法或模型,因此其影响力高度依赖于后续研究社区的采纳程度,且论文本身未对“如何提升模型的文化理解能力”给出更深入的方案探索。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 335 words

Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Runyan Yang、Yuke Si、Yingying Gao(三人并列第一作者,论文中标注† Equal contribution) 通讯作者:Shilei Zhang(论文中标注* Corresponding author) 作者列表:Runyan Yang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yuke Si(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yingying Gao(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Junlan Feng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Chao Deng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Shilei Zhang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室) 💡 毒舌点评 该论文提出的“源维度”与“层维度”双轨蒸馏框架,在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角,特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而,实验规模和范围严重受限,仅在Qwen系列模型的师生配置下进行了验证,缺乏跨架构、跨数据规模的普适性证明,其“统一框架”的宣称说服力因此大打折扣。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 278 words