Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者: Xiang He (腾讯AI Lab, 北京) 通讯作者: Li Liu (香港科技大学(广州)), Dong Yu (腾讯AI Lab, 北京) 其他作者: Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评 亮点: 这篇论文最“性感”的地方在于它证明了在音频领域,像教婴儿学走路一样,不需要手把手教(监督微调),只需要给对“奖励信号”(混合相似度奖励),模型自己就能在探索中“悟”出如何推理,而且悟性还特别好(SOTA)。槽点: 依赖一个巨大的外部LLM(Qwen3-235B)作为奖励评估器,训练成本恐怕不菲,有点像请米其林三星大厨来给家常菜打分,效果虽好但难以普及。另外,参考推理链本身也依赖其他大模型生成,属于“站在巨人的肩膀上再创造”,原创性在数据层面稍打折扣。 🔗 开源详情 代码: 论文中提到“代码和数据将开源”,但未提供具体链接或时间表。当前未开源。 模型权重: 未提及发布训练后的Audio-DeepThinker模型权重。 数据集: 构建的训练数据(D1, D2)将随代码一同开源,但当前未发布。 预训练权重: 基于开源的Qwen3-Omni-30B-A3B-Instruct模型。 在线Demo: 未提及。 引用的开源项目: 依赖Qwen3-Omni、DeepSeek V3.1、BGE-M3等模型,以及SWIFT、Megatron-LM等训练框架。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量,要么使用粗糙的奖励,导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架,其核心贡献有三:1)设计了一种混合推理相似度奖励,结合LLM评估(逻辑、深度)和嵌入相似度(语义对齐),直接对推理链内容进行细粒度监督;2)提出了一个渐进式两阶段RL课程,首先在基础音频QA数据上通过纯RL探索激发基本推理模式,然后在声学边界案例上使用更灵活的奖励进行增强,全程无需监督推理微调;3)进行了深入的机理分析,揭示RL训练主要重塑上层MoE门控机制,且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能,证明了通过精心设计的奖励和课程,高质量的音频推理能力可以从RL探索中涌现。 ...

2026-04-21 · 更新于 2026-05-20 · 3 min · 497 words

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

📄 Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models #音频问答 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yanda Li(Mohamed bin Zayed University of Artificial Intelligence, UAE) 其他作者:Yuhan Liu(Mohamed bin Zayed University of Artificial Intelligence, UAE),Zirui Song(Mohamed bin Zayed University of Artificial Intelligence, UAE),Yunchao Wei(Beijing Jiaotong University, China),Martin Takáč(Mohamed bin Zayed University of Artificial Intelligence, UAE),Salem Lahlou(Mohamed bin Zayed University of Artificial Intelligence, UAE) 通讯作者:未明确标注(推断为 Salem Lahlou 或 Yanda Li,依据为末位作者惯例及第一作者联系邮箱 Yanda.Li@mbzuai.ac.ae) 💡 毒舌点评 把“音频糊一下再对比”这个直觉包装成了系统化的免训练解码框架,稳定性自适应和门控设计确实让方法显得精致而非粗暴;但Prefill阶段 latency 直接翻倍的事实被轻描淡写地塞进了Appendix,而且这招对 SALMONN 这类把音频压成语义查询向量的模型完全失效——本质上是在给统一LALMs的解码器打补丁,修的是架构遗留的bug。 ...

2026-04-20 · 更新于 2026-05-20 · 5 min · 999 words