音频问答 | 语音/音乐/音频论文速递

Advancing Speech Summarization in Multi-Modal LLMs with Reinforcement Learning

📄 Advancing Speech Summarization in Multi-Modal LLMs with Reinforcement Learning #音频问答 #强化学习 #知识蒸馏 #多模态模型 #多语言 ✅ 7.0/10 | 前50% | #音频问答 | #强化学习 | #知识蒸馏 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Shaoshi Ling（Microsoft CoreAI）通讯作者：未说明作者列表：Shaoshi Ling（Microsoft CoreAI）、Gang Liu（Microsoft CoreAI）、Guoli Ye（Microsoft CoreAI）、Jinyu Li（Microsoft CoreAI） 💡 毒舌点评本文提出的三阶段强化学习训练框架，特别是“在策略知识蒸馏”方法，确实为提升开源MLLM的语音摘要能力提供了一条清晰的工程路径，效果显著（相对提升28%并超越GPT-4o-Audio）。但整个框架高度依赖GPT-4作为教师模型和评估者，这既在“选题价值”上打了折扣（更像是一种蒸馏应用而非原理突破），也让所谓“超越GPT-4o”的结论在公平性上留有疑问——毕竟你用的是GPT-4o（文本模式）当老师来训学生去赢另一个GPT-4o的变体。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：未提及公开。合成数据集的构建流程有描述，但原始数据及生成的具体查询-摘要对未公开。 Demo：未提及。复现材料：论文中提供了一些关键训练细节，如LoRA参数（α=32， rank=16）、训练轮数、GPU数量、使用的框架（verl， vLLM）。但完全依赖GPT-4o作为教师模型和评估工具，构成了复现的主要障碍。论文中引用的开源项目：verl [20]， vLLM [21]。总结：论文中未提及开源计划。其方法的可复现性高度依赖于对GPT-4o的访问权限。 📌 核心摘要要解决什么问题：现有开源多模态大语言模型在语音摘要任务上的性能远落后于商业闭源模型（如GPT-4o-Audio），存在明显的模态差距（音频 vs 文本）。方法核心是什么：提出一个三阶段强化学习训练框架：首先在精心构建的合成数据上进行监督微调以增强指令遵循能力；其次，通过“在策略知识蒸馏”从强大的文本LLM（GPT-4o）转移摘要能力，直接学习学生模型自身生成的序列；最后，使用直接偏好优化来减少幻觉并提升输出质量。与已有方法相比新在哪里：创新点在于将“在策略知识蒸馏”成功应用于跨模态（文本教师到音频学生）的知识迁移，解决了传统蒸馏中由于分布不匹配导致的模式坍塌问题；并将其与DPO结合，形成一个端到端的、能有效弥合模态差距的训练流水线。主要实验结果如何：在Golden3、AMI、Floras三个基准测试上，最终模型（Phi-4MM SFT+KD+DPO）相比强基线（复现的Phi-4MM）取得了高达28%的相对性能提升。在所有三个数据集上均超越了GPT-4o-Audio模型。主要结果如下表所示：模型/方法 Golden3 ↑ AMI ↑ Floras ↑ GPT-4o Audio 6.26 5.83 5.77 GPT-4o Text 6.57 6.75 6.82 Phi-4MM replicated 4.84 4.13 4.16 Phi-4MM SFT 4.97 5.14 5.14 Phi-4MM SFT+KD 6.05 5.75 4.93 Phi-4MM SFT+KD+DPO 6.36 6.26 5.74 消融研究表明，每个训练阶段都有贡献，其中知识蒸馏阶段带来最大提升，但同时也引入了幻觉，由DPO阶段缓解。实际意义是什么：为在资源受限条件下提升开源多模态模型在语音摘要等跨模态任务上的能力，提供了一个有效且可复现的训练范式，有助于推动语音理解技术的普惠化。主要局限性是什么：训练过程高度依赖闭源、强大的GPT-4作为教师模型和偏好评估者，这可能在实际部署中难以复现；论文中未提及模型、代码或数据的开源计划；评估主要基于GPT-4打分，可能存在偏见。 🏗️ 模型架构本文并非提出一个全新的模型架构，而是提出一个针对现有MLLM的多阶段训练框架。基础模型建立在Phi-4MM上，其架构核心是语音编码器+投影器+语言模型解码器。 ...

AQUA-Bench: Beyond finding answers to knowing when there are None in Audio Question Answering

📄 AQUA-Bench: Beyond finding answers to knowing when there are None in Audio Question Answering #音频问答 #基准测试 #多模态模型 #鲁棒性 ✅ 7.0/10 | 前50% | #音频问答 | #基准测试 | #多模态模型 #鲁棒性学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chun-Yi Kuan（National Taiwan University）通讯作者：Hung-yi Lee（National Taiwan University）（论文未明确说明通讯作者，根据学术惯例及作者排序推断）作者列表：Chun-Yi Kuan（National Taiwan University）、Hung-yi Lee（National Taiwan University） 💡 毒舌点评亮点：该工作直面了一个被主流评测普遍忽视但极为现实的问题——“当模型无法回答时该怎么办”，并为此构建了系统化、可操作的评估框架，填补了音频大模型评测中的一个重要空白。短板：作为一项“评测基准”工作，其本身并未提出解决模型“强制选择”偏差的方法或模型，更多是“诊断”而非“治疗”，且论文中部分实验图表（如详细Prompt影响、部分模型对比）的可视化数据在正文中缺失，略显遗憾。 🔗 开源详情代码：论文提供了项目网站链接（https://kuan2jiu99.github.io/AQUA-Bench-demo/），但未明确说明是否包含完整的评估代码仓库。网站本身可能包含演示和部分资源。模型权重：本文未提出新模型，评估使用的是已有的开源模型（如Qwen2.5-Omni， Audio Flamingo 3等）和商业模型（如GPT-4o）。这些模型的权重获取方式需参考其各自原始论文。数据集：论文明确表示会发布AQUA-Bench数据集（“our released dataset is available on our website”）。 Demo：提供了在线演示网站。复现材料：论文给出了详细的评估协议（两阶段测试、条件准确率）、基础数据集来源（ESC-50等）和答案提取方法（正则表达式）。但未提供具体的Prompt模板（除示例外）、正则表达式代码或超参数设置。论文中引用的开源项目：主要引用并基于以下开源项目/基准进行数据构建：ESC-50 [29], MMAU [20], Dynamic-SUPERB [22, 23], Qwen-Audio [1], Qwen2-Audio [2], SALMONN [3], LTU [4], Audio Flamingo 2/3 [11, 12] 等。 📌 核心摘要要解决什么问题：当前的音频问答基准（如Dynamic-SUPERB, MMAU）默认所有问题都有答案，忽略了现实世界中常见的、模型应拒绝回答的“不可回答”问题（如问题与音频不相关、选项缺失等），导致对模型可靠性的评估不全面。方法核心是什么：提出了一个名为AQUA-Bench的新基准，系统评估模型在三种不可回答场景下的表现：(1) 缺失答案检测（AAD），(2) 不兼容答案集检测（IASD），(3) 不兼容音频-问题检测（IAQD）。该基准通过系统性地修改现有可回答的音频问答样本，构造对应的不可回答版本。与已有方法相比新在哪里：首次为音频问答任务定义并构建了针对“不可回答性”的标准化评测体系。与之前仅关注回答正确性的基准不同，AQUA-Bench专门评估模型“识别并拒绝无效问题”的能力，这更贴近可信AI的要求。主要实验结果如何：实验揭示了当前主流音频大模型（ALLMs）的一个普遍盲点。如表1所示，模型在原始可回答任务（Ori.）上表现优异（例如Qwen2.5-Omni在动物声音上达96.4%），但在不可回答任务（尤其是AAD）上性能急剧下降（同模型在AAD上仅20.5%）。使用思维链（CoT）提示能显著提升模型在不可回答任务上的表现（如BALSa-MA在多个AAD任务上超过90%）。实际意义是什么：该基准为评估和推动更可靠、更值得信赖的音频语言系统提供了重要工具。它指出了当前模型在真实部署场景中的一个关键缺陷——倾向于对无效问题给出自信但错误的答案，这对于医疗、安防等敏感领域至关重要。主要局限性是什么：1. 基准本身不提供解决模型偏差的方法，只是揭示问题。2. 构建的IAQD部分依赖于GPT-4o生成不相关问题，其质量和分布可能受限于生成模型的能力。3. 评估的模型范围有限，主要聚焦于公开的ALLMs，未涵盖更多潜在的架构探索。 🏗️ 模型架构本文并非提出一个新的音频模型，而是提出了一个评估基准（Benchmark）。因此，其“架构”指的是评估框架的整体设计。 ...

AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

📄 AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning #音频问答 #音频场景理解 #多智能体 #迭代优化 #大语言模型 ✅ 7.0/10 | 前25% | #音频问答 | #多智能体 | #音频场景理解 #迭代优化学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Yan Rong（香港科技大学（广州））通讯作者：Li Liu（香港科技大学（广州））作者列表：Yan Rong（香港科技大学（广州））、Chenxing Li（腾讯AI Lab）、Dong Yu（腾讯AI Lab）、Li Liu（香港科技大学（广州）） 💡 毒舌点评用 2-3 句话做有信息量的点评，必须同时包含至少 1 个亮点和 1 个短板。可以犀利，但不要空泛嘲讽，不要只喊“很强”或“很水”。 ...

Benchmarking Humans And Machines On Complex Multilingual Speech Understanding Tasks

📄 Benchmarking Humans And Machines On Complex Multilingual Speech Understanding Tasks #音频问答 #语音大模型 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #语音大模型 | #多语言 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sai Samrat Kankanala（印度科学研究院，电气工程系，LEAP Lab）通讯作者：未说明作者列表：Sai Samrat Kankanala（印度科学研究院，电气工程系，LEAP Lab）、Ram Chandra（印度科学研究院，电气工程系，LEAP Lab）、Sriram Ganapathy（印度科学研究院，电气工程系，LEAP Lab） 💡 毒舌点评本文设计了一个精巧的跨人机实验范式，首次系统量化了多语言母语者在混合语音中选择性注意力的“母语优势”现象，同时揭示了顶尖语音大模型在并行信息提取上展现出的“超人类”能力，这一对比本身极具洞察力。然而，论文在得出“模型是并行处理”这一关键结论时，更多是基于性能表现的推测，缺乏对模型内部工作机制的探查，使得这一深刻论断略显武断。 🔗 开源详情论文中未提及任何开源计划。代码：未提及代码仓库链接。模型权重：未提及（评估使用的模型为现有闭源模型及一个开源模型AF-3，但未提供本研究特有的权重）。数据集：未提及公开。论文明确说明是为本研究录制的数据。 Demo：未提供在线演示。复现材料：未给出详细的训练细节、配置、检查点或附录说明。论文中引用的开源项目：引用了Audio-Flamingo模型，并提到了其开源性质。 📌 核心摘要问题：如何系统地量化人类在多语言环境（特别是母语与第二语言）中处理混合通道（鸡尾酒会）语音的听觉注意力能力，并与当前先进的语音大模型（Speech LLMs）进行基准比较。方法核心：构建一个包含印度英语、印地语和卡纳达语的长篇故事朗读语料库（单声道和两/三路混合声道），设计基于内容的问答题，招募人类受试者并测试多个语音大模型（Audio-Flamingo, Gemini, GPT-4o系列），对比其在单声道和混合声道条件下的准确率。新在哪里：1）创建了首个针对印度多语言环境的长上下文语音问答基准；2）首次在受控实验中量化了人类在混合语音中选择性注意力的“L1（母语）优势”差距；3）通过大规模对比，揭示了人类与AI在听觉注意力机制上的根本差异：人类依赖流畅的、针对L1优化的选择性注意，而大型AI模型则依赖更强大的并行信息提取能力。主要实验结果：人类在母语中的表现显著优于第二语言（例如，印地语单声道：95.0% vs 英语：81.3%；混合声道注意力侧：60.4% vs 45.0%）。所有模型在单声道下表现良好（>88%），但在混合声道性能下降。关键发现是，在混合语音的非注意侧（干扰语音），模型（如Gemini-Pro）的准确率远高于人类（例如，英语两路混合：79.5% vs 人类72.5%），显示出模型“同时听”多路的能力，但这也导致其根据指令选择性关注目标说话人的能力（即注意力差距）远小于人类。实际意义：为评估语音交互系统在复杂、多语言真实场景中的理解能力提供了新基准；揭示了人机信息处理机制的差异，为开发更具“人性化”注意力的AI提供参考；也指出了当前开源模型在多语言复杂场景下的不足。主要局限性：1）评估任务限于问答准确率，未分析模型如何实现“超人类”的并行处理；2）数据集完全自建且未公开，可复现性差；3）模型评估是黑盒的，无法区分性能差异是源于语音编码、注意力机制还是语言理解能力。 🏗️ 模型架构本文不是提出新模型，而是评估现有的语音大模型。因此，架构分析部分主要说明评估框架。论文提出的评估框架（图1）包含三个阶段： ...

DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

📄 DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models #音频问答 #多任务学习 #音频大模型 #空间音频 #音频场景理解 🔥 8.0/10 | 前25% | #音频问答 | #多任务学习 | #音频大模型 #空间音频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kevin Wilkinghoff（奥尔堡大学电子系统系， Pioneer Centre for AI）通讯作者：论文中未明确标注通讯作者（基于作者列表，通常可认为两位作者共同负责）作者列表：Kevin Wilkinghoff（奥尔堡大学电子系统系， Pioneer Centre for AI）， Zheng-Hua Tan（奥尔堡大学电子系统系， Pioneer Centre for AI） 💡 毒舌点评亮点：用0.2%的额外参数实现了多任务性能的大幅提升，证明了解耦表示在空间音频任务中的巨大潜力。短板：训练和评估高度依赖SoundSpaces 2.0合成的仿真数据，其与真实世界声学环境的差距可能限制了结论的普适性。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/wilkinghoff/DSpAST/。模型权重：在提供的论文文本片段中，未明确提及是否公开发布训练好的模型权重文件。数据集：训练和评估使用的双耳音频数据集基于AudioSet和SoundSpaces 2.0合成，但论文未明确说明是否单独公开该合成数据集。SpatialSoundQA为公开数据集，但获取方式需参考原文。 Demo：论文中未提及提供在线演示。复现材料：提供了详细的训练课程（三阶段）、关键超参数（学习率、批次大小、损失权重）、模型参数量对比，以及特征注意力模块的具体公式，复现细节较为充分。论文中引用的开源项目：依赖了AudioMAE（用于初始化）、BAT系统（作为下游推理模型）、AudioSet数据集、SoundSpaces 2.0仿真平台。 📌 核心摘要问题：使用单一音频编码器（如SpatialAST）处理空间音频推理任务（声音事件检测SED、距离预测DP、方向估计DoAE）时，由于各任务所需信息（事件类型、距离、方向）大多相互独立，导致表征纠缠，单一任务的优化可能损害其他任务的性能。方法核心：提出DSpAST，一种基于SpatialAST的解耦空间音频编码器。主要创新包括：(a) 引入特征注意力模块，允许模型为每个任务动态选择最相关的音频特征（log-mel, IPD, ILD, GCC-PHAT）；(b) 设计任务特定分支，将信息流分离到SED、DP和DoAE三个独立分支中，每个分支包含自己的特征注意力模块、骨干网络和投影头。新意：在单一模型架构内实现了任务表征的解耦，而非使用多个独立编码器。通过共享骨干网络参数，以极低的参数开销（0.2%）解决了多任务表征冲突问题，并提供了可解释的注意力权重。主要实验结果：表1 (消融研究)：DSpAST（stage 3）在模拟双耳音频数据集上显著优于基线SpatialAST。具体数值如下：音频编码器 mAP (↑) ER20○(↓) MAE (↓) DER (↓) SpatialAST (官方检查点) 49.90 24.43 17.87 32.50 DSpAST (stage 3) 54.53 20.28 14.44 28.03 表2 (SpatialSoundQA任务)：使用DSpAST作为BAT系统的编码器，在SpatialSoundQA的所有问题类型上均优于使用SpatialAST。例如，在需要联合SED、DoAE和DP的类型D问题上，DSpAST（单阶段）的距离预测DER为47.89%，而SpatialAST（单阶段）为53.40%；在需要空间推理的类型E问题上，DSpAST（单阶段）的二元准确率为77.71%，高于SpatialAST（单阶段）的74.04%。实际意义：为构建更强大的空间音频推理系统提供了一个高效且性能更优的音频编码器前端，其解耦设计有助于理解和分析不同空间特征对各任务的重要性。主要局限性：性能仍不完美，依赖合成数据进行训练和评估，未来需在更多真实场景和更复杂声学条件下验证和改进。 🏗️ 模型架构 DSpAST的架构图（如图1所示）展示了从双耳音频输入到最终表示的完整流程。该架构是SpatialAST的扩展，主要增加了特征注意力模块和任务特定分支。 ...

Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion

📄 Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion #音频问答 #音视频 #多模态模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #音频大模型 #多模态模型 | #音视频 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chenjie Pan（华南师范大学）通讯作者：Chenyou Fan（华南师范大学）作者列表：Chenjie Pan（华南师范大学）、Yi Zhu（华南师范大学）、Songkai Ning（华南师范大学）、Xiangyang Liu（华南师范大学）、Weiping Zheng（华南师范大学）、Chenyou Fan（华南师范大学） 💡 毒舌点评亮点：论文精准地抓住了当前音视频LLM中音频模态token冗余这一关键痛点，提出的无参动态聚类压缩策略（ATCC）在大幅削减token数量（96%）和计算量（54%）的同时，性能不降反升，这证明其压缩确实保留了有效信息，而非简单丢弃。短板：创新性更多体现在“组合”与“针对特定场景的优化”上，其核心的聚类算法和双向交叉注意力融合均为成熟技术的直接应用；此外，论文声称的性能提升幅度（0.6%-3.7%）相对有限，且绝对数值并未显著超越表中列出的所有最强基线（如PAVE在Music-AVQA上仍略高）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开训练好的模型权重。数据集：论文中使用了多个公开数据集（Music-AVQA， VGGSound， AVSD等），但未提供额外的数据处理或获取方式。 Demo：未提供在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数（学习率、批次大小）、硬件环境（4x RTX 3090）以及算法伪代码（算法1），这些是重要的复现信息。但未提供完整的配置文件、检查点或更细致的训练日志。论文中引用的开源项目：明确提到了作为基础架构的VideoLLaMA2，并引用了其使用的组件：视觉编码器SigLIP [22]，音频编码器BEATs [23]，以及语言模型Qwen2-7B [24]。也引用了LoRA [14]等训练技术。 📌 核心摘要解决的问题：多模态大语言模型在处理音视频问答任务时，因音频和视觉token数量庞大导致计算和内存开销高，且现有的融合方法往往忽略了音频token的冗余问题，影响了效率和跨模态对齐效果。方法核心：提出高效音视频推理框架（EAVI），包含两个核心组件：(1) 音频token聚类压缩（ATCC），通过动态阈值聚类在保留时序结构的前提下压缩音频token；(2) 双向模态融合模块，通过交叉注意力让压缩后的音频特征与视觉特征相互增强。与已有方法的新颖之处：不同于以往工作主要压缩视觉token或进行简单拼接，EAVI首次专门针对音频模态设计了一种无需额外训练参数的动态聚类压缩方法，并引入了双向的跨模态注意力机制，使融合更加充分。主要实验结果：在三个AVQA基准数据集上，EAVI相比强基线VideoLLaMA2，准确率提升了0.6%-3.7%。效率方面，音频token数量平均减少96%，总token减少66%，导致FLOPs降低54%，KV缓存使用减少65%，推理延迟降低15%。主要对比结果：模型 Music-AVQA VGGSound AVSD CREMA (2025) 75.6 67 - VideoLLaMA2 (2024) 80.9 71.4 57.2 PAVE (2025) 82.3 - 42.5 EAVI (Ours) 81.5 (+0.6) 75.1 (+3.7) 58.7 (+1.5) 效率对比：模型 Tokens (Audio / Total) FLOPs (T) Latency (S) KV cache (MB) VideoLLaMA2 1496 / 2172 40.3 1.13 120 EAVI (Ours) 66 / 742 15.4 0.96 42 实际意义：为在资源受限的设备上部署实时、高效的音视频问答模型提供了可行的技术路径，通过压缩减少了对计算和内存资源的需求。主要局限性：聚类压缩可能导致细微语义信息的丢失；模型的最终性能仍强依赖于底层预训练的视觉和音频编码器；在对话理解（AVSD）等任务上的提升幅度相对较小。 🏗️ 模型架构 EAVI框架的整体架构如图2（左）所示。它建立在类似VideoLLaMA2的架构之上，主要改进了音频处理和跨模态融合部分。 ...

Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions

📄 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions #音频问答 #强化学习 #多模态模型 #基准测试 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sam Blouir (Amazon) 通讯作者：未说明作者列表：Sam Blouir (Amazon), Ganesh Ramachandra Kini (Amazon), Qingming Tang (Amazon), Raphael Petegrosso (Amazon), Chieh-Chi Kao (Amazon), Ankur Gandhe (Amazon), Chao Wang (Amazon) 💡 毒舌点评亮点：论文提出的“概率比奖励”设计巧妙，将传统RLVR中非黑即白的准确率信号转化为一个能反映模型对正确答案相对置信度的连续信号，为“接近正确”但未得分的样本提供了有效学习信号，这在奖励稀疏的强化学习微调中至关重要。短板：所有实验仅在单一的MMAU基准上完成，且基础模型固定为Qwen2.5-Omni-7B，该方法在其他音频任务（如开放式QA、不同声源类型）或不同规模的模型上的效果和泛化能力有待验证。 🔗 开源详情代码：论文中��提及代码仓库链接。模型权重：未提及公开的微调模型权重。数据集：使用了公开的数据集（EchoInk-R1基于AVQA，MMAU），但未说明如何获取其特定版本。 Demo：未提及。复现材料：提供了非常详细的复现信息，包括：基础模型（Qwen2.5-Omni-7B）、训练数据（EchoInk-R1）、评估数据集（MMAU test-mini）、生成长度（64 tokens）、采样温度（1.0）、评估协议（8次采样多数投票）、奖励函数完整公式。这为复现其核心实验提供了充分指导。论文中引用的开源项目：引用了多个开源模型和数据集，如Qwen2.5-Omni, AVQA, MMAU, EchoInk-R1。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有的强化学习与验证奖励（RLVR）方法在训练音频问答系统时，通常只使用格式是否正确和答案是否完全匹配的二元奖励信号，这种稀疏的信号对模型几乎正确但未得分的样本无法提供有效的学习指导。方法核心是什么：提出了一种新的基于对数几率（log-odds）的奖励函数。该函数在生成推理链（）之后、答案文本生成之前，计算模型对正确答案选项与最可能的错误答案选项的标准化对数似然之差，以此作为奖励信号。这鼓励模型通过推理链增加正确答案相对于最强干扰项的概率优势。与已有方法相比新在哪里：新在将音频问答的RL训练奖励从简单的二元正确性/格式惩罚，升级为利用模型自身策略分布的“软”概率比奖励。这提供了更密集、更有方向性的梯度信号。主要实验结果如何：在MMAU测试集（mini版）上，使用所提方法微调的模型平均准确率达到78.3%，优于使用传统“准确率+格式”奖励的基线（76.3%）和未微调的Qwen2.5-Omni-7B基础模型（70.4%）。消融实验表明，“log-odds”奖励变体优于“概率”奖励和“提升”奖励。关键实验结果表格：模型/方法基础模型 Sound (%) Music (%) Speech (%) 平均准确率 (%) log-odds (ours) Qwen2.5-Omni 83.4 73.3 78.2 78.3 accuracy + format (our setup) Qwen2.5-Omni 81.6 70.9 76.4 76.3 Omni-R1 [9] Qwen2.5-Omni 81.7 73.4 76.0 77.0 Qwen2.5-Omni-7B (base) – 77.8 61.1 72.4 70.4 Step-Audio-2 [17] – 84.0 73.6 75.1 77.6 消融实验表格：奖励变体平均准确率 (%) — — log-odds (ours) 78.3 (从主表) prob 77.2 lift 77.0 实际意义是什么：为训练更有效的多选题音频问答系统提供了一种新的、更优的强化学习奖励设计范式，证明了在RLVR框架下，超越二元信号的似然度引导能提升模型的音频推理能力。主要局限性是什么：1) 验证实验仅限于MMAU这一个复杂的音频问答基准；2) 方法的核心组件（对数似然计算）依赖于一个具有较强基础能力的预训练多模态大模型（如Qwen2.5-Omni），在更小的模型上是否有效未知；3) 论文未讨论该奖励函数对开放式生成任务（如音频描述）的适用性。 🏗️ 模型架构论文并未提出一个新的端到端模型架构，而是设计了一个针对现有多模态大模型（M-LLM）进行强化学习微调的训练框架。 ...

FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference

📄 FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference #音频问答 #大语言模型的压缩与加速 #音视频 #多模态模型 ✅ 7.0/10 | 前25% | #音频问答 | #大语言模型的压缩与加速 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chaeyoung Jung（韩国科学技术院，Korea Advanced Institute of Science and Technology, South Korea）通讯作者：未说明作者列表：Chaeyoung Jung（韩国科学技术院）、Youngjoon Jang（韩国科学技术院）、Seungwoo Lee（韩国科学技术院）、Joon Son Chung（韩国科学技术院） 💡 毒舌点评亮点：本文敏锐地发现了现有token剪枝研究在音视频大语言模型领域的空白，并首次提出了系统性的解决方案，其两阶段剪枝策略（全局剪枝+精细剪枝）在实验上取得了显著且一致的效率提升（>40% FLOPs降低），且不损害甚至能提升性能，这对于推动此类昂贵模型的实际部署具有明确的工程价��。短板：技术路线本质上是对视觉token剪枝方法的“移植”和“拼接”（全局剪枝基于视觉工作常见的注意力回溯，精细剪枝基于LLM剪枝中常见的最后token分析），在剪枝机制本身上创新有限。此外，实验对比集中在自身设定的不同剪枝策略上，缺乏与更多元、更强的基线方法（如其他可能适用于多模态的剪枝或加速技术）的横向比较。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文中使用的AVQA、MUSIC-AVQA、AVHBench为公开数据集，但论文未说明具体获取或预处理方式。 Demo：未提及。复现材料：论文给出了关键超参数（剪枝层选择、P=20%、保留的token数量），描述了剪枝算法的公式和步骤，但未提供完整的配置文件、脚本或检查点。论文中引用的开源项目：引用了VideoLLaMA2和video-SALMONN2作为基线模型，并链接了VideoLLaMA2的GitHub仓库（https://github.com/DAMO-NLP-SG/VideoLLaMA2/tree/audio_visual），但这是基线模型的仓库，而非FastAV的实现。 📌 核心摘要要解决的问题：音视频大语言模型在处理包含音频、视频、文本的多模态输入时，token数量巨大，导致推理时内存消耗和计算成本剧增，限制了其实际应用。方法核心：提出FastAV，一个两阶段的推理时token剪枝框架。第一阶段在中间层进行“全局剪枝”，利用注意力回溯机制分析token重要性，移除位置靠后、影响力较弱的大部分token（如2/3）；第二阶段在后续层进行“精细剪枝”，基于最后一个查询token的注意力权重，逐层迭代移除最不重要的20% token。与已有方法相比新在哪里：这是首个专门为音视频大语言模型设计的token剪枝框架。不同于直接应用在纯文本LLM或视觉-语言模型上的方法，FastAV综合考虑了音视频模态的特点，并通过注意力回溯揭示了此类模型在中间层后注意力集中于早期token的“锚定”模式，从而设计了针对性的剪枝策略。主要实验结果：在VideoLLaMA2和video-SALMONN2两个模型上，FastAV将理论FLOPs降低了40%以上（见表1），同时推理速度提升约30%，内存占用降低。在AVQA, MUSIC-AVQA, AVHBench三个基准测试上，性能保持持平甚至有所提升（例如在AVHBench的AV匹配任务上，VideoLLaMA2的准确率从57.8%提升至69.0%）。消融实验表明，基于注意力回溯的全局剪枝策略优于随机剪枝和基于原始注意力权重的策略（表2），精细剪枝的剪枝比例P=20%为最优（表4）。实际意义：使音视频大语言模型能够更高效地处理长视频、复杂音频等多模态长上下文输入，降低了部署的硬件门槛和延迟，有助于推动其在实时交互、边缘设备等场景的应用。主要局限性：剪枝策略的有效性依赖于“注意力在中间层后集中于早期token”这一观察，该模式是否在所有音视频大语言模型和任务中普遍存在尚不明确。此外，论文未探讨该剪枝框架对模型训练或微调阶段的影响，也未提供理论保证证明性能不会在更极端的压缩下下降。 🏗️ 模型架构 FastAV本身并非一个独立的音视频大语言模型，而是一个应用于现有模型（如VideoLLaMA2、video-SALMONN2）推理阶段的加速框架。其整体流程如图3所示。图3：FastAV框架概览。输入序列包含视频（X_vis）、音频（X_aud）和文本（X_lang）token。整体推理过程（a）在中间层（L/2）进行全局剪枝，在后续层进行精细剪枝。剪枝机制（b）展示了全局剪枝依据注意力回溯，精细剪枝依据最后查询token的注意力分析。 ...

ICASSP 2026 - 音频问答论文列表

ICASSP 2026 - 音频问答共 15 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Enhancing Audio Question-Answering Performance Through Log-L 8.5分前25% 🥈 DSpAST: Disentangled Representations for Spatial Audio Reaso 8.0分前25% 🥉 Improving Audio Question Answering with Variational Inferenc 7.5分前25% 4. TAU: A Benchmark for Cultural Sound Understanding Beyond Sem 7.5分前25% 5. Efficient Audio-Visual Inference Via Token Clustering And Mo 7.5分前25% 6. SightSound-R1: Cross-Modal Reasoning Distillation from Visio 7.5分前25% 7. Keeping Models Listening: Segment- and time-aware attention 7.5分前25% 8. Benchmarking Humans And Machines On Complex Multilingual Spe 7.5分前25% 9. FastAV: Efficient Token Pruning for Audio-Visual Large Langu 7.0分前25% 10. AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework f 7.0分前25% 11. Segmentwise Pruning in Audio-Language Models 7.0分前50% 12. Teaching Audio Models to Reason: A Unified Framework for Sou 7.0分前25% 13. AQUA-Bench: Beyond finding answers to knowing when there are 7.0分前50% 14. Test-Time Scaling for Auditory Cognition in Audio Language M 7.0分前25% 15. Advancing Speech Summarization in Multi-Modal LLMs with Rein 7.0分前50% 📋 论文详情 🥇 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试 ...

Improving Audio Question Answering with Variational Inference

📄 Improving Audio Question Answering with Variational Inference #音频问答 #变分推断 #音频大模型 #模型校准 #选择性预测 ✅ 7.5/10 | 前25% | #音频问答 | #变分推断 | #音频大模型 #模型校准学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Haolin Chen（Idiap Research Institute, Martigny, Switzerland; EPFL, Lausanne, Switzerland）通讯作者：未说明作者列表：Haolin Chen（Idiap Research Institute, EPFL） 💡 毒舌点评论文亮点在于成功地将高效的变分推断优化器（IVON）应用于音频问答任务，不仅略微提升了准确率，更显著改善了模型的校准特性和选择性预测能力，这对构建可信赖的AI系统非常实用。但略显单薄的是，其核心贡献本质上是“把一个已知的好工具用在一个新场景”，而非提出针对音频问答特性设计的新方法，创新维度稍显单一。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的模型权重（包括基线模型和微调后模型）。基线模型Qwen2.5-Omni本身可能是开源的（论文未确认）。数据集：使用了DCASE 2025 AQA数据集，论文未明确说明其是否公开以及如何获取，但DCASE挑战赛数据集通常公开。 Demo：未提及。复现材料：提供了非常充分的训练细节、配置和超参数设置，有利于复现。论文中引用的开源项目：主要引用了作为基础模型的 Qwen2.5-Omni [6] 和作为微调方法的 LoRA [25]。优化器 IVON [14] 本身也是一项开源工作。 📌 核心摘要要解决的问题：多模态大模型（如音频问答模型）在微调后常常过于自信（overconfident），预测置信度不能反映真实准确率（校准差），导致在需要可靠判断的风险敏感应用中不可信。方法核心：采用变分推断（VI）框架，使用高效的优化器IVON替代传统的AdamW，对大型音频语言模型Qwen2.5-Omni进行参数高效微调（LoRA）。IVON在训练中对模型权重的后验分布进行建模，从而捕获参数不确定性。与已有方法相比新在哪里：区别于传统优化器（如Adam）提供点估计，以及Monte Carlo Dropout等事后不确定性估计方法，IVON在训练过程中即内建了不确定性建模，且计算成本接近Adam。本文首次将其系统地应用于多模态音频问答任务。主要实验结果：在DCASE 2025 AQA数据集（BQA, TSQA, CQA三个子集）上，与AdamW基线相比：准确率（ACC）：IVON（均值或MC-8）平均从80.45%提升至80.97%。校准：ECE（越低越好）从16.2显著降至10.0（IVON MC-8），NLL和Brier分数同样改善。选择性预测：在拒答1%最不确定样本时（C@1%），覆盖准确率从3.8%（AdamW）大幅提升至19.5%（IVON MC-8），风险-覆盖曲线下面积（AUC）从7.4降至5.8。消融实验表明，增加蒙特卡洛（MC）采样数能持续改善校准，而调整后验分布的温度则在准确率和校准间存在权衡。实际意义：为多模态模型提供了更可靠的置信度估计，使其能在不确定时主动拒绝回答（选择性预测），从而提升系统在医疗、安防等风险敏感领域的应用安全性。主要局限性：研究仅限于多选题形式的音频问答（单次令牌预测），未验证在开放式生成任务（如自由问答、语音合成）中的效果。 🏗️ 模型架构本文未提出新的模型架构，而是将变分推断优化器应用于现有的大型音频语言模型（LALM）进行微调。 ...