Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models
📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolin He(香港中文大学、蚂蚁集团) 通讯作者:Jian Liu(蚂蚁集团, rex.lj@antgroup.com)、Qiuqiang Kong(香港中文大学, qqkong@ee.cuhk.edu.hk) 作者列表:Haolin He(香港中文大学、蚂蚁集团)、Xingjian Du(罗切斯特大学)、Renhe Sun(蚂蚁集团)、Zheqi Dai(香港中文大学)、Yujia Xiao(香港中文大学)、Mingru Yang(蚂蚁集团)、Jiayi Zhou(蚂蚁集团)、Xiquan Li(上海交通大学)、Zhengxi Liu(香港中文大学)、Zining Liang(香港中文大学)、Chunyat Wu(香港中文大学)、Qianhua He(华南理工大学)、Tan Lee(香港中文大学)、Xie Chen(上海交通大学)、Wei-Long Zheng(上海交通大学)、Weiqiang Wang(蚂蚁集团)、Mark Plumbley(伦敦国王学院)、Jian Liu(蚂蚁集团)、Qiuqiang Kong(香港中文大学) 💡 毒舌点评 亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题,并巧妙地将此“缺陷”转化为训练策略设计的依据(Weak-to-Strong),结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI(Qwen3-235B)来构建数据集和进行质量过滤,这多少有点“用魔法打败魔法”,其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型(Qwen2.5-Omni)和评估模型(A-Flamingo2, R1-AQA, Kimi-Audio)均为已公开的模型。 数据集:AudioMCQ是本文构建的数据集,论文中描述了构建方法和组成,但未明确提供数据集的公开下载链接或获取方式。 Demo:论文中未提及在线演示。 复现材料:提供了详细的超参数配置表(表6,表7)、训练策略说明、评估提示模板(附录B)和质量验证流程(附录C),复现细节较为充分。 论文中引用的开源项目:Qwen3-235B(用于数据生成)、Qwen2.5-Omni(骨干模型)、A-Flamingo2、R1-AQA、Kimi-Audio(用于ACF评估)、GRPO(训练方法)、DeepSpeed ZeRO-2(优化器)。 开源计划:论文中未提及明确的开源计划。 📌 核心摘要 解决的问题:大型音频语言模型(LALMs)的多阶段后训练(如SFT后接RL)效果不佳,缺乏针对性的高质量数据集,且普遍存在“零音频贡献”现象(模型仅凭文本信息即可答对,无需听音频)。 方法核心:首先构建了大规模音频选择题数据集AudioMCQ(571k样本)。其次,提出音频贡献过滤(ACF)方法,利用多个模型在“静音”输入下的正确率,将数据分为“弱音频贡献”和“强音频贡献”子集。最后,基于此提出两种训练范式:Weak-to-Strong(SFT用弱音频贡献数据,GRPO用强音频贡献数据)和Mixed-to-Strong(SFT用混合数据,GRPO用强音频贡献数据)。 创新性:1) 构建了首个大规模、带思维链注释的音频选择题数据集;2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型(显式逻辑推理与隐式知识检索);3) 基于音频贡献度提出了简单有效的后训练数据分配策略。 实验结果:使用Weak-to-Strong策略,在MMAU-test-mini和MMAU上分别达到78.2%和75.6%;使用Mixed-to-Strong策略,在MMAR和MMSU上分别达到67.0%和71.7%,均为开源模型SOTA。具体结果见表5及下表: 方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义:为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略,揭示了当前评估基准中可能存在的“伪音频理解”问题。 主要局限性:数据集构建完全依赖一个强大的大语言模型(Qwen3-235B),可能引入偏差;ACF方法依赖三个特定的现成模型;Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong,表明其普适性有待验证。 🏗️ 模型架构 本文不提出新的模型架构,而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此,其“架构”体现在数据处理与训练流程上。 图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集,经过问题生成、选择题构建、结构化与非结构化思维链生成,以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线,最终产出高质量的选择题数据集。 ...