音频问答 | 语音/音频论文速递

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #音视频 #时频分析 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #时频分析学术质量 7.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kun Li（University of Twente；IT University of Copenhagen）通讯作者：Sami Sebastian Brandt（IT University of Copenhagen）作者列表：Kun Li（University of Twente, IT University of Copenhagen）、Michael Ying Yang（University of Bath）、Sami Sebastian Brandt（IT University of Copenhagen） 💡 毒舌点评这篇论文的亮点在于它为音乐音视频问答（AVQA）设计了一个从问题引导到最终预测的端到端框架，并创新性地将音频的频率域特征作为一等公民纳入时空交互中，有效解决了视觉线索微弱时（如演奏者动作不明显）的识别难题，消融实验也扎实地证明了各模块的必要性。然而，其主要短板在于提出的框架相对复杂，引入了多个预训练编码器（CLIP， VGGish， AST），整体计算开销和模型复杂度可能限制其在资源受限场景的应用，且实验主要集中在音乐场景这一相对小众的benchmark上。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者：Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表：Zihan Liu（北京航空航天大学，上海人工智能实验室），Zhikang Niu（上海交通大学，上海创新研究院），Qiuyang Xiao（上海交通大学），Zhisheng Zheng（上海交通大学），Ruoqi Yuan（北京航空航天大学），Yuhang Zang（上海人工智能实验室），Yuhang Cao（上海人工智能实验室），Xiaoyi Dong（上海人工智能实验室，香港中文大学），Jianze Liang（上海人工智能实验室），Xie Chen（上海交通大学，上海创新研究院），Leilei Sun（北京航空航天大学），Dahua Lin（香港中文大学，上海人工智能实验室），Jiaqi Wang（上海人工智能实验室，上海创新研究院） 💡 毒舌点评本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题，证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”，从音高、响度等基础感知到时空推理，层层深入，确实能测出模型的真实短板。不过，论文本身止步于“诊断医生”，并未给出“治疗方案”，其核心价值依赖于未来模型能否利用这个基准取得进步，稍显被动。 📌 核心摘要本文指出，现有的音频基准测试主要评估可通过文本描述传达的语义内容，无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此，论文提出了“音频4D智能”的概念，即结合时间（1D）和三维空间（3D）进行深度推理的能力。作者构建了STAR-Bench基准，包含两个层级：基础声学感知（对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估）和整体时空推理（包括连续过程与离散事件序列的时间推理，以及静态定位、多源关系和动态轨迹跟踪的空间推理）。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型（16个开源，3个闭源）的评测中，STAR-Bench展现出巨大挑战性，人类表现远高于所有模型。研究发现：闭源模型（如Gemini 2.5 Pro）在知识和推理上领先，但细粒度感知仍是其瓶颈；开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如，在仅使用音频文本描述答题时，MMAU和MMAR基准的准确率仅下降5.9%和9.0%，而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%，证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究，为未来模型改进指明了方向，如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #统一音频模型 #音频生成 #音频问答 #自回归模型 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #自回归模型 | #统一音频模型 #音频问答学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jinchuan Tian（卡内基梅隆大学，NVIDIA）通讯作者：未明确标注，论文指出所有作者贡献相等（Equal Contribution）作者列表： Jinchuan Tian（卡内基梅隆大学，NVIDIA） Sang-gil Lee（NVIDIA） Zhifeng Kong（NVIDIA） Sreyan Ghosh（NVIDIA，马里兰大学） Arushi Goel（NVIDIA） Chao-Han Huck Yang（NVIDIA） Wenliang Dai（NVIDIA） Zihan Liu（NVIDIA） Hanrong Ye（NVIDIA） Shinji Watanabe（卡内基梅隆大学） Mohammad Shoeybi（NVIDIA） Bryan Catanzaro（NVIDIA） Rafael Valle（NVIDIA） Wei Ping（NVIDIA） 💡 毒舌点评亮点在于首次系统性地证明了一个基于自回归语言模型的音频模型，可以通过数据缩放和特定技巧（如CFG和DPO）在生成质量上追平甚至超越扩散模型，并进一步将其扩展为能进行文本-音频联合推理的统一模型，技术路线清晰且有效。短板则在于其宣称的“统一”模型，其核心的音频理解数据集（AF3）和大规模生成数据（30M）并未公开，这使得“统一训练”和“匹配专用模型性能”的结论在独立复现层面打了折扣，更像一个强大的NVIDIA内部能力展示。 ...

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #基准测试 #多通道 #语音大模型 #音频问答 🔥 8.0/10 | 前25% | #基准测试 | #麦克风阵列 | #多通道 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhaojiang Lin（Meta），Yong Xu（Meta），Kai Sun（Meta）（论文明确标注三位为共同第一作者：Joint first author）通讯作者：未明确说明（但Zhaojiang Lin提供了联系邮箱zhaojiang@meta.com）作者列表：Zhaojiang Lin（Meta），Yong Xu（Meta），Kai Sun（Meta），Jing Zheng（Meta），Yin Huang（Meta），Surya Teja Appini（Meta），Krish Narang（Meta），Renjie Tao（Meta），Ishan Kapil Jain（Meta），Siddhant Arora（Carnegie Mellon University，标注工作在Meta完成），Ruizhi Li（Meta），Yiteng Huang（Meta），Kaushik Patnaik（Meta），Wenfang Xu（Meta），Suwon Shon（Meta），Yue Liu（Meta），Ahmed A Aly（Meta），Anuj Kumar（Meta），Florian Metze（Meta），Xin Luna Dong（Meta） 💡 毒舌点评亮点在于首次针对可穿戴场景定义了多通道、自我中心语音助手评测标准，数据基于真实AI眼镜采集，任务设计紧贴现实痛点（如侧向对话拒绝）。短板是数据集规模相对有限（3.8k样本），且评估的大部分现有SLLM只能基于波束成形后的单通道音频输入，未能充分验证多通道架构的潜力，论文中提出的MC WearLlama也仅是案例研究，非核心贡献。 ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书公司）通讯作者：Weidi Xie（上海交通大学）作者列表：Jack Hong（小红书公司）、Shilin Yan（小红书公司）、Jiayin Cai（小红书公司）、Xiaolong Jiang（小红书公司）、Yao Hu（小红书公司）、Weidi Xie（上海交通大学） 💡 毒舌点评这篇论文最大的亮点在于它指出了一个残酷的现实：现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中，表现最好的也只达到了65.1%的准确率，离可靠应用还差得远。然而，它的短板也同样明显：作为一个评测基准论文，它更像是为其他研究者“立规矩”和“出考卷”，本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：公开。论文明确说明WorldSense数据集已公开发布，可在其项目主页和GitHub/HuggingFace获取。 Demo：未提供在线演示链接。复现材料：提供了详细的评估设置（如帧采样方法、API使用）、评估Prompt模板（附录A.4）和数据集统计信息，足以复现其评估实验。论文中引用的开源项目：引用了多个被评估的开源模型，如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等，以及数据集来源FineVideo和MusicAVQA。开源计划：论文中未提及除数据集之外的额外开源计划。 📌 核心摘要该论文旨在解决当前多模态大语言模型（MLLM）评估中忽略音频模态、场景简单、任务单一的问题。为此，作者提出了WorldSense，这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务，使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频，以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对，确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明，现有模型在真实世界场景下面临巨大挑战，最佳模型Gemini 2.5 Pro的准确率仅为65.1%，而许多开源音视频模型的表现甚至接近随机猜测（约25%）。消融研究证实了原始音频信号比文本转录包含更多信息（如韵律、情感），对提升理解至关重要。该基准旨在推动更全面的多模态理解研究，为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构本文未提出一个新的模型架构，而是设计了一个用于评估现有模型的基准框架。其核心是评估流程，如下： ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #音频问答 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音频问答 #跨模态学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1. Advanced Micro Devices, 2. Johns Hopkins University) 通讯作者：Jiang Liu (Advanced Micro Devices) 作者列表：Xingrui Wang (Advanced Micro Devices, Johns Hopkins University), Jiang Liu (Advanced Micro Devices), Chao Huang (Advanced Micro Devices, University of Rochester), Xiaodong Yu (Advanced Micro Devices), Ze Wang (Advanced Micro Devices), Ximeng Sun (Advanced Micro Devices), Jialian Wu (Advanced Micro Devices), Alan Yuille (Johns Hopkins University), Emad Barsoum (Advanced Micro Devices), Zicheng Liu (Advanced Micro Devices) 💡 毒舌点评亮点：基准设计极其系统且具有诊断性，通过“模态平衡”的六种排列组合，像精密仪器一样能测量出模型对不同模态的“偏科”程度，这是超越简单平均分的深度评测。短板：论文将最强的闭源模型（Gemini）作为标杆，但自身并未提出新的模型或算法，因此更像一份详尽的“体检报告”而非“治疗方案”；同时，尽管承诺开源，但评测完全依赖现有模型，缺乏对新模型训练的直接指导细节。 ...

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #数据集 #流式处理 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #流式处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Reza Pourreza（Qualcomm AI Research）通讯作者：未说明作者列表：Reza Pourreza（Qualcomm AI Research），Rishit Dagli（University of Toronto，实习于Qualcomm AI Research），Apratim Bhattacharyya（Qualcomm AI Research），Sunny Panchal（Qualcomm AI Research），Guillaume Berger（Qualcomm AI Research），Roland Memisevic（Qualcomm AI Research） 💡 毒舌点评这篇论文犀利地戳破了“多模态模型已懂交流”的泡沫，用精心设计的QIVD数据集证明，让AI像人一样“边看边听边聊”还差得远，尤其是在把握“回答时机”和理解动态动作上。遗憾的是，其提出的流式处理基线（拼接ASR和视频LLM）更像是权宜之计，而非优雅的端到端解决方案，这或许暗示了当前模型架构的根本性局限。 🔗 开源详情代码：论文中未提及公开的代码仓库链接。模型权重：评估中使用了多个公开的预训练模型权重（如VideoLLaMA系列、Qwen系列、GPT-4o等）。论文本身贡献的微调模型权重（如微调后的VideoLLaMA2.1-7B-FT-AV， Stream-Qwen-Omni）未明确说明是否公开。数据集：QIVD数据集已提供访问链接（qualcomm.com/developer/software/qualcomm-interactive-video-dataset-qivd），应为公开可用。 Demo：论文中未提及在线演示。复现材料：提供了详尽的附录，包含训练超参数（表D.2）、模型模块冻结/训练状态（表D.1）、评估用的LLM裁判提示词（表D.3, D.4）、GPT-4o的提示词（表D.5）以及对数据集语义分类的详细定义，复现材料非常充分。引用的开源项目：引用了Whisper, Whisper-Streaming, Cosmos-Tokenizer, BEATs, SigLIP等开源工具或模型作为技术组件。开源计划：论文中未明确提及后续开源代码的计划。 📌 核心摘要解决的问题：现有大型多模态模型（LMM）虽然能描述图片、回答静态问题，但在需要结合实时视频和音频流进行情境化问答时表现不佳。它们难以整合多模态信息来理解指代（如“这个”）、判断动态事件，并且最关键的是，不知道“何时”回答。方法核心：提出了一个全新的数据集和基准——Qualcomm Interactive Video Dataset (QIVD)。该数据集通过众包收集，参与者用手机边拍视频边提出开放性问题，数据集包含原始视频、音频、问题的文字转录、答案以及至关重要的“最佳回答时机”时间戳。与已有方法的对比新意：与现有离线视频问答数据集不同，QIVD强制模型处理在线、实时、自包含的问答场景。它不仅评估模型能否“答对”，更评估其能否在动态场景中“听懂”问题并在信息充分时“恰当地”作答，这是对模型情境理解和时序推理能力的直接测试。主要实验结果：人类表现：在子集上人类正确率约为87.3%。模型表现：最强的开源模型（如VideoLLaMA3-7B）在提供完美问题和时机的离线设置下正确率仅为56.4%；最强闭源模型（GPT-4o）正确率为58.8%，远低于人类。时机至关重要：使用模型自身预测的“最佳回答时机”（Stream-Qwen-Omni）会比使用固定时机（如问题结束时）显著提升性能，但仍然存在误差。音频的作用：直接使用音频信息并不总是能提升性能，但经过在QIVD上微调后，模型能有效利用音频，特别是在主观、动作计数等任务上提升巨大（如主观任务+23.26%，动作计数+16.96%）。关键差距：模型在“动作计数”、“音视频理解”、“物体指代”等需要时序推理和跨模态理解的任务上，与人类差距最大。实际意义：为构建能够与人类进行实时视频通话的AI助手、人形机器人或远程协作系统提供了关键的评估基准和瓶颈分析，明确了未来模型需要突破的方向。主要局限性：数据集规模（2900个视频）和类别多样性有限；数据主要来自众包的日常场景，可能缺乏专业或复杂场景；研究的“流式基线”方法本质上是模块化拼接，而非真正的端到端实时系统。 🏗️ 模型架构本文主要贡献是数据集和评估框架，而非一个全新的端到端模型。论文提出的模型架构是用于评估的基线系统，其设计体现了对当前技术路径的分析： ...

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频问答 #音频场景理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频场景理解 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Daiqing Wu（中国科学院信息工程研究所；字节跳动）通讯作者：Yangyang Kang（字节跳动），Yu Zhou（南开大学）作者列表： Daiqing Wu（中国科学院信息工程研究所；字节跳动；中国科学院大学） Xuan Zhang（字节跳动） Dongbao Yang（中国科学院信息工程研究所） Jiashu Yao（字节跳动） Longfei Chen（上海科技大学） Qingsong Liu（字节跳动） Sicheng Zhao（清华大学） Can Ma（中国科学院信息工程研究所） Yangyang Kang（浙江大学；字节跳动） Yu Zhou（南开大学） 💡 毒舌点评亮点：论文清晰地指出了现有“音频条件化文本推理”的信息瓶颈问题，并受人类听觉认知启发，提出了“音频交错推理”这一新颖且合理的范式，通过两阶段训练框架（SFT+RL）使其落地，并在多个专家级音频理解基准上取得了SOTA性能，验证了范式的有效性。短板：训练数据完全依赖LLM（DeepSeek-R1）基于音频描述自动生成，其质量和与真实音频的匹配度可能存在噪声，且数据筛选过程引入了额外的不确定性；虽然提供了代码，但模型权重未公开，限制了复现和直接比较的便利性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/wdqqdw/Echo，包含训练代码和脚本。模型权重：论文中未提及公开模型权重。数据集：论文中提及构建了EAQA-SFT和EAQA-RL数据集，但未明确说明是否公开下载。训练中使用的其他数据集（AudioSet-Strong, MusicBench, AVQA）为公开数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练超参数、数据统计（附录F）、伪代码（附录D）、提示词模板（附录E）和评估设置，复现细节较为充分。引用的开源项目：模型基座为Qwen2.5-Omni，数据合成使用了DeepSeek-R1，训练使用了ms-swift、VERL和vLLM框架。 📌 核心摘要解决的问题：现有大音频语言模型（LALMs）在推理时普遍采用“一次性编码”的音频条件化文本推理，将连续音频信号压缩为静态嵌入，导致关键细节信息丢失，形成“信息瓶颈”，限制了模型处理复杂、多源音频的能力。方法核心：提出“音频交错推理”范式，将音频作为主动推理组件。模型在推理过程中动态定位并回听关键音频片段（通过<seg>标签），将原始音频token插入推理上下文，形成多模态推理过程。为实现此范式，设计了两阶段训练框架：(1) 监督微调（SFT）使模型学会生成包含时间戳的音频定位推理链；(2) 强化学习（RL）通过设计的奖励函数（准确度、格式、一致性、片段奖励）优化模型的回听策略。同时，构建了一个利用LLM自动生成高质量音频问答及思维链（CoT）的数据生产流水线。创新之处：核心创新在于提出了“音频交错推理”这一新的推理格式，改变了模型与音频交互的方式，从“思考音频”转向“用音频思考”。这与之前主要复制文本推理范式的方法有本质区别。配套的两阶段训练框架和自动化数据生成流水线也是重要贡献。主要结果： Echo模型在MMAR（平均69.99%）、MMAU-mini（平均80.41%）和MMAU（平均76.61%）等强调高级推理的音频理解基准上，取得了开源模型中的最优性能，并超越了GPT-4o-Audio和Gemini-2.0-Flash等先进商业模型。消融实验表明，音频交错推理格式、SFT数据、RL数据质量以及各奖励组件对性能提升均有贡献。下表总结了主要实验结果：模型类别 MMAR Avg Acc (%) MMAU-mini Avg Acc (%) MMAU Avg Acc (%) Qwen2.5-Omni (基线) 开源基础模型 57.33 71.53 71.00 GPT-4o-Audio 专有模型 64.09 62.51 60.82 Gemini-2.0-Flash 专有模型 67.90 70.51 67.03 Echo (本文) 自适应模型 69.99 80.41 76.61 实际意义：为提升LALMs的复杂音频理解能力提供了一种符合认知科学、且实证有效的技术路径，特别是在需要精细时序分析和多轮音频感知的任务中（如多说话人角色映射、事件推理）。所提出的数据生成流水线对构建高质量音频训练数据也有参考价值。主要局限性： (1) 训练数据依赖于LLM的合成，其“听觉”基于文本描述而非原始音频，可能存在语义偏差和幻觉，尽管有交叉验证和过滤机制。(2) 当前的回听机制仅支持直接访问原始音频片段，未探索如慢速播放、频谱分析等更高级的“听觉”操作。(3) 模型在长音频上的泛化能力虽被提及但有待更深入验证。 🏗️ 模型架构 Echo模型整体架构基于一个预训练的多模态大模型（Qwen2.5-Omni），并通过两阶段训练使其具备“音频交错推理”能力。其核心不在于全新的神经网络模块设计，而在于推理流程和训练范式的创新。 ...

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院；实习于亚马逊) 通讯作者：未明确说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表： Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校；亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾，并为此开出了“过程奖励”这剂对症良药，将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而，其方法的计算开销（需要多次采样）和奖励函数设计的复杂性，使其对资源有限的团队并不友好，且最终性能天花板仍受制于基础音频感知器的短板，这提醒我们“会思考”之前，得先“听清楚”。 ...

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团， rex.lj@antgroup.com）、Qiuqiang Kong（香港中文大学， qqkong@ee.cuhk.edu.hk）作者列表：Haolin He（香港中文大学、蚂蚁集团）、Xingjian Du（罗切斯特大学）、Renhe Sun（蚂蚁集团）、Zheqi Dai（香港中文大学）、Yujia Xiao（香港中文大学）、Mingru Yang（蚂蚁集团）、Jiayi Zhou（蚂蚁集团）、Xiquan Li（上海交通大学）、Zhengxi Liu（香港中文大学）、Zining Liang（香港中文大学）、Chunyat Wu（香港中文大学）、Qianhua He（华南理工大学）、Tan Lee（香港中文大学）、Xie Chen（上海交通大学）、Wei-Long Zheng（上海交通大学）、Weiqiang Wang（蚂蚁集团）、Mark Plumbley（伦敦国王学院）、Jian Liu（蚂蚁集团）、Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题，并巧妙地将此“缺陷”转化为训练策略设计的依据（Weak-to-Strong），结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI（Qwen3-235B）来构建数据集和进行质量过滤，这多少有点“用魔法打败魔法”，其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型（Qwen2.5-Omni）和评估模型（A-Flamingo2, R1-AQA, Kimi-Audio）均为已公开的模型。数据集：AudioMCQ是本文构建的数据集，论文中描述了构建方法和组成，但未明确提供数据集的公开下载链接或获取方式。 Demo：论文中未提及在线演示。复现材料：提供了详细的超参数配置表（表6，表7）、训练策略说明、评估提示模板（附录B）和质量验证流程（附录C），复现细节较为充分。论文中引用的开源项目：Qwen3-235B（用于数据生成）、Qwen2.5-Omni（骨干模型）、A-Flamingo2、R1-AQA、Kimi-Audio（用于ACF评估）、GRPO（训练方法）、DeepSpeed ZeRO-2（优化器）。开源计划：论文中未提及明确的开源计划。 📌 核心摘要解决的问题：大型音频语言模型（LALMs）的多阶段后训练（如SFT后接RL）效果不佳，缺乏针对性的高质量数据集，且普遍存在“零音频贡献”现象（模型仅凭文本信息即可答对，无需听音频）。方法核心：首先构建了大规模音频选择题数据集AudioMCQ（571k样本）。其次，提出音频贡献过滤（ACF）方法，利用多个模型在“静音”输入下的正确率，将数据分为“弱音频贡献”和“强音频贡献”子集。最后，基于此提出两种训练范式：Weak-to-Strong（SFT用弱音频贡献数据，GRPO用强音频贡献数据）和Mixed-to-Strong（SFT用混合数据，GRPO用强音频贡献数据）。创新性：1) 构建了首个大规模、带思维链注释的音频选择题数据集；2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型（显式逻辑推理与隐式知识检索）；3) 基于音频贡献度提出了简单有效的后训练数据分配策略。实验结果：使用Weak-to-Strong策略，在MMAU-test-mini和MMAU上分别达到78.2%和75.6%；使用Mixed-to-Strong策略，在MMAR和MMSU上分别达到67.0%和71.7%，均为开源模型SOTA。具体结果见表5及下表：方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义：为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略，揭示了当前评估基准中可能存在的“伪音频理解”问题。主要局限性：数据集构建完全依赖一个强大的大语言模型（Qwen3-235B），可能引入偏差；ACF方法依赖三个特定的现成模型；Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong，表明其普适性有待验证。 🏗️ 模型架构本文不提出新的模型架构，而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此，其“架构”体现在数据处理与训练流程上。图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集，经过问题生成、选择题构建、结构化与非结构化思维链生成，以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线，最终产出高质量的选择题数据集。 ...