Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models
📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频大模型 #多模态模型 #自监督学习 #知识蒸馏 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Longhao Li (西北工业大学,计算机科学学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie (西北工业大学,计算机科学学院,ASLP@NPU),Yongxiang Li (西北工业大学,计算机科学学院,ASLP@NPU) (根据论文中提供的联系邮箱推断) 其他作者: Hongjie Chen (中国电信人工智能研究院 (TeleAI)) Zehan Li (西北工业大学,计算机科学学院,ASLP@NPU) Qihan Hu (西北工业大学,计算机科学学院,ASLP@NPU) Jian Kang (西北工业大学,计算机科学学院,ASLP@NPU) Jie Li (中国电信人工智能研究院 (TeleAI)) 💡 毒舌点评 亮点:这篇论文最亮眼的是其“全开源”的承诺和“自蒸馏”策略,构建了一个从数据到模型的完整音频推理解决方案,直接挑战了依赖闭源API(如Gemini)的“捷径”做法,为社区提供了宝贵的可复现基准。槽点:然而,讽刺的是,其评估体系的核心——MMAR基准测试的“评分细则(rubric)”——仍然依赖闭源的Gemini 2.5 Pro生成,这使得其“超越闭源模型”的结论在评估公正性上存在一丝“用对手的尺子量自己”的微妙尴尬。 🔗 开源详情 代码:论文中提到代码将开源,并提供了匿名GitHub链接:https://anonymous.4open.science/r/Audio-Cogito-0E6E。使用了ms-swift训练框架。 模型权重:论文中提到Audio-Cogito基于Qwen3-Omni-Thinking,但未明确说明是否会单独发布微调后的模型权重。通常此类工作会随论文发布。 数据集:明确承诺开源。包含54.5万个高质样本,覆盖多音频域。获取地址同上述GitHub链接。 预训练权重:基于开源的Qwen3-Omni-Thinking模型。 在线Demo:论文中未提及。 引用的开源项目:主要依赖ms-swift框架,以及基座模型Qwen3-Omni-Thinking。数据来源均为公开数据集(AudioSet, Clotho等)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务上能力不足且依赖昂贵闭源数据的问题。作者提出了一个名为Audio-Cogito的全开源解决方案,其核心是Cogito-Pipe——一个四阶段自动化数据构建流水线,用于生成高质量、多样化的音频推理链(CoT)数据。该流水线通过整合多源音频元数据、利用模型自身进行自蒸馏生成推理轨迹,并辅以质量验证,最终构建了一个包含54.5万个样本的大规模开源数据集。基于此数据集,作者采用自蒸馏策略对基座模型(Qwen3-Omni-Thinking)进行微调。实验表明,Audio-Cogito在专门评估推理过程的MMAR基准测试上,取得了开源模型中的最佳性能,平均准确率达71.70%,甚至在部分指标上超越了Gemini 2.0 Flash等闭源系统,同时其推理链的质量(Rubrics Score 62.22%, CRS 0.87)也得到显著提升。该工作为推动音频模态的深度、可解释推理提供了重要的开源资源和方法论参考。 ...