Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models
📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者: Xiang He (腾讯AI Lab, 北京) 通讯作者: Li Liu (香港科技大学(广州)), Dong Yu (腾讯AI Lab, 北京) 其他作者: Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评 亮点: 这篇论文最“性感”的地方在于它证明了在音频领域,像教婴儿学走路一样,不需要手把手教(监督微调),只需要给对“奖励信号”(混合相似度奖励),模型自己就能在探索中“悟”出如何推理,而且悟性还特别好(SOTA)。槽点: 依赖一个巨大的外部LLM(Qwen3-235B)作为奖励评估器,训练成本恐怕不菲,有点像请米其林三星大厨来给家常菜打分,效果虽好但难以普及。另外,参考推理链本身也依赖其他大模型生成,属于“站在巨人的肩膀上再创造”,原创性在数据层面稍打折扣。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量,要么使用粗糙的奖励,导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架,其核心贡献有三:1)设计了一种混合推理相似度奖励,结合LLM评估(逻辑、深度)和嵌入相似度(语义对齐),直接对推理链内容进行细粒度监督;2)提出了一个渐进式两阶段RL课程,首先在基础音频QA数据上通过纯RL探索激发基本推理模式,然后在声学边界案例上使用更灵活的奖励进行增强,全程无需监督推理微调;3)进行了深入的机理分析,揭示RL训练主要重塑上层MoE门控机制,且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能,证明了通过精心设计的奖励和课程,高质量的音频推理能力可以从RL探索中涌现。 ...