Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频场景理解 #音频问答 #强化学习 #数据集 #基准测试 🔥 8.0/10 | 前25% | #音频场景理解 | #强化学习 | #音频问答 #数据集 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao (西北工业大学,Xi’an, China) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表: Mingchen Shao (西北工业大学) Hang Su (独立研究者,北京) Wenjie Tian (西北工业大学) Bingshen Mu (西北工业大学) Zhennan Lin (西北工业大学) Lichun Fan (独立研究者,北京) Zhenbo Luo (独立研究者,北京) Jian Luan (独立研究者,北京) Lei Xie (西北工业大学) 💡 毒舌点评 亮点:这篇论文非常“全套”,从数据集、评测基准到训练框架一气呵成,直面长音频时间感知的核心痛点(时间幻觉与漂移),并用全局到局部推理范式+TWA-CoT的“工具使用”方案给出了一个结构清晰、实验充分的解决方案。短板:其提出的TWA-CoT依赖多轮工具调用,论文自身也承认这会增加计算开销,牺牲了实时性,这在一定程度上限制了其在流式或资源受限场景下的实用价值。 ...

2026-04-28

AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA

📄 AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA #音频问答 #基准测试 #模型评估 #数据集 ✅ 6.5/10 | 前50% | #音频问答 | #基准测试 | #模型评估 #数据集 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Tasnim Kabir(未说明) 通讯作者:未说明 作者列表:Tasnim Kabir(未说明)、Dmytro Kurdydyk(未说明)、Aadi Palnitkar(未说明)、Liam Dorn(未说明)、Ahmed Haj Ahmed(未说明)、Jordan Lee Boyd-Graber(未说明) 💡 毒舌点评 亮点在于,AUDITA通过引入人类作者和精心设计的“陷阱”问题,直击当前音频问答模型“投机取巧”的痛点,其IRT分析也为评估模型能力提供了更细腻的视角。短板是,作为一篇以数据集为核心的论文,其贡献主要在于“发现问题”而非“解决问题”,且实验部分主要评估现有模型,未提出新的模型架构或训练方法,创新边界相对清晰。 📌 核心摘要 要解决什么问题:现有的音频问答(Audio QA)基准测试存在缺陷,模型可以通过短时线索、词汇先验、数据集偏差或绕过音频直接使用文本/元数据等“捷径”策略来取得高分,无法真正评估模型的音频推理能力。 方法核心是什么:提出AUDITA,一个大规模、真实世界的音频问答基准数据集。其核心在于问题由人类作者(Trivia作者)撰写,设计了具有挑战性的干扰项和长程时间依赖性,确保问题无法仅凭孤立的文本或声音线索回答,从而迫使模型进行真正的音频推理。 与已有方法相比新在哪里:与现有主要关注声音事件分类或基于字幕查询的基准不同,AUDITA强调“音频推理”而非“表面声学识别”。它通过人类作者设计复杂问题、引入IRT(项目反应理论)分析模型潜在能力与题目难度,提供了更严格的评估框架。 主要实验结果如何:人类平均准确率为32.13%,表明任务具有挑战性但人类可以理解。相比之下,最先进的音频问答模型平均准确率低于8.86%,性能差距显著。论文通过IRT分析进一步量化了模型和数据的系统性缺陷。 模型/群体 平均准确率 人类 32.13% 最先进模型 < 8.86% 实际意义是什么:AUDITA为音频问答领域提供了一个更严格的“试金石”,能够揭示当前模型在复杂、真实音频推理任务上的不足,推动社区研发具备真正听觉理解和推理能力的模型。 主要局限性是什么:论文中未说明AUDITA数据集的具体规模(如音频数量、问题数量);实验部分主要是对现有模型进行基准测试,未提出新的模型或方法来解决所揭示的问题;数据集的获取方式和开源细节在摘要中未详细说明。 🏗️ 模型架构 论文中未提及具体的模型架构。本文的核心贡献是提出一个新的评测基准(数据集),而非一个新的模型。因此,本节内容不适用。 ...

2026-04-24

Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频问答 #知识蒸馏 #音频大模型 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Longhao Li (龙浩 李)(西北工业大学 计算机学院,语音与语言处理组 ASLP@NPU) 通讯作者:Lei Xie (谢磊)(西北工业大学 计算机学院,语音与语言处理组 ASLP@NPU),其邮箱 lxie@nwpu.edu.cn 在摘要中列出。 其他作者: Hongjie Chen (陈鸿杰)(中国电信人工智能研究院 TeleAI) Zehan Li (李泽汉)(西北工业大学 计算机学院,ASLP@NPU) Qihan Hu (胡启涵)(西北工业大学 计算机学院,ASLP@NPU) Jian Kang (康健)(西北工业大学 计算机学院,ASLP@NPU) Jie Li (李杰)(西北工业大学 计算机学院,ASLP@NPU) Yongxiang Li (李永祥)(西北工业大学 计算机学院,ASLP@NPU) 💡 毒舌点评 亮点:构建了一套“授人以渔”的自动化数据炼金术(Cogito-Pipe),并用“自己教自己”的自蒸馏方法让模型学会了深度思考,效果立竿见影,在开源阵营里算是“卷”出新高度。 槽点:评估推理质量的“裁判”(GPT-4o)自己就是个闭源黑盒,用它来评判开源模型的推理逻辑是否严谨,总感觉有点“让厨师长评菜品”的味道,公平性存疑。 📌 核心摘要 本文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务中能力不足、推理过程不透明的问题。核心贡献是提出了一个名为 Audio-Cogito 的完全开源解决方案,其核心是一个四阶段的自动化数据构建管道 Cogito-Pipe,用于生成高质量、多样化的音频推理链(CoT)数据。关键方法是利用Cogito-Pipe构建了包含545k样本的大规模数据集,并采用自蒸馏策略,使用同一模型(Qwen3-Omni-Thinking)进行推理数据生成和后续微调,确保了推理模式的一致性。主要发现表明,在专门评估推理过程的MMAR基准上,Audio-Cogito在开源模型中取得了SOTA性能,平均准确率达71.70%,其推理质量指标(Rubrics 62.22%, CRS 0.87)也优于所有基线,性能接近Gemini 2.5 Pro等顶级闭源模型。实际意义在于为社区提供了一个可复现的、用于提升音频模型深度推理能力的完整框架和数据资源,推动了音频智能从感知向认知迈进。局限性在于其数据生成和质量验证仍部分依赖于其他强大的闭源模型(如Qwen3-Omni, GPT-4o)。 ...

2026-04-21

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者: Xiang He (腾讯AI Lab, 北京) 通讯作者: Li Liu (香港科技大学(广州)), Dong Yu (腾讯AI Lab, 北京) 其他作者: Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评 亮点: 这篇论文最“性感”的地方在于它证明了在音频领域,像教婴儿学走路一样,不需要手把手教(监督微调),只需要给对“奖励信号”(混合相似度奖励),模型自己就能在探索中“悟”出如何推理,而且悟性还特别好(SOTA)。槽点: 依赖一个巨大的外部LLM(Qwen3-235B)作为奖励评估器,训练成本恐怕不菲,有点像请米其林三星大厨来给家常菜打分,效果虽好但难以普及。另外,参考推理链本身也依赖其他大模型生成,属于“站在巨人的肩膀上再创造”,原创性在数据层面稍打折扣。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量,要么使用粗糙的奖励,导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架,其核心贡献有三:1)设计了一种混合推理相似度奖励,结合LLM评估(逻辑、深度)和嵌入相似度(语义对齐),直接对推理链内容进行细粒度监督;2)提出了一个渐进式两阶段RL课程,首先在基础音频QA数据上通过纯RL探索激发基本推理模式,然后在声学边界案例上使用更灵活的奖励进行增强,全程无需监督推理微调;3)进行了深入的机理分析,揭示RL训练主要重塑上层MoE门控机制,且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能,证明了通过精心设计的奖励和课程,高质量的音频推理能力可以从RL探索中涌现。 ...

2026-04-21

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

📄 Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models #音频问答 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yanda Li(Mohamed bin Zayed University of Artificial Intelligence, UAE) 其他作者:Yuhan Liu(Mohamed bin Zayed University of Artificial Intelligence, UAE),Zirui Song(Mohamed bin Zayed University of Artificial Intelligence, UAE),Yunchao Wei(Beijing Jiaotong University, China),Martin Takáč(Mohamed bin Zayed University of Artificial Intelligence, UAE),Salem Lahlou(Mohamed bin Zayed University of Artificial Intelligence, UAE) 通讯作者:未明确标注(推断为 Salem Lahlou 或 Yanda Li,依据为末位作者惯例及第一作者联系邮箱 Yanda.Li@mbzuai.ac.ae) 💡 毒舌点评 把“音频糊一下再对比”这个直觉包装成了系统化的免训练解码框架,稳定性自适应和门控设计确实让方法显得精致而非粗暴;但Prefill阶段 latency 直接翻倍的事实被轻描淡写地塞进了Appendix,而且这招对 SALMONN 这类把音频压成语义查询向量的模型完全失效——本质上是在给统一LALMs的解码器打补丁,修的是架构遗留的bug。 ...

2026-04-20