Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Runyan Yang、Yuke Si、Yingying Gao(三人并列第一作者,论文中标注† Equal contribution) 通讯作者:Shilei Zhang(论文中标注* Corresponding author) 作者列表:Runyan Yang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yuke Si(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yingying Gao(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Junlan Feng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Chao Deng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Shilei Zhang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室) 💡 毒舌点评 该论文提出的“源维度”与“层维度”双轨蒸馏框架,在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角,特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而,实验规模和范围严重受限,仅在Qwen系列模型的师生配置下进行了验证,缺乏跨架构、跨数据规模的普适性证明,其“统一框架”的宣称说服力因此大打折扣。 ...

2026-04-29

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频场景理解 #音频问答 #强化学习 #数据集 #基准测试 🔥 8.0/10 | 前25% | #音频场景理解 | #强化学习 | #音频问答 #数据集 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao (西北工业大学,Xi’an, China) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表: Mingchen Shao (西北工业大学) Hang Su (独立研究者,北京) Wenjie Tian (西北工业大学) Bingshen Mu (西北工业大学) Zhennan Lin (西北工业大学) Lichun Fan (独立研究者,北京) Zhenbo Luo (独立研究者,北京) Jian Luan (独立研究者,北京) Lei Xie (西北工业大学) 💡 毒舌点评 亮点:这篇论文非常“全套”,从数据集、评测基准到训练框架一气呵成,直面长音频时间感知的核心痛点(时间幻觉与漂移),并用全局到局部推理范式+TWA-CoT的“工具使用”方案给出了一个结构清晰、实验充分的解决方案。短板:其提出的TWA-CoT依赖多轮工具调用,论文自身也承认这会增加计算开销,牺牲了实时性,这在一定程度上限制了其在流式或资源受限场景下的实用价值。 ...

2026-04-28

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao(西北工业大学) 通讯作者:Lei Xie(西北工业大学) 作者列表:Mingchen Shao(西北工业大学)、Hang Su(独立研究者)、Wenjie Tian(西北工业大学)、Bingshen Mu(西北工业大学)、Zhennan Lin(西北工业大学)、Lichun Fan(独立研究者)、Zhenbo Luo(独立研究者,清华大学相关)、Jian Luan(独立研究者)、Lei Xie(西北工业大学) 💡 毒舌点评 这篇论文的亮点在于其“庖丁解牛”式的系统设计:面对长音频时间感知这一老大难问题,没有硬磕模型本身,而是从数据、评测、推理范式三个层面给出了一套“组合拳”,尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而,其短板也很明显:框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战,且最终性能的天花板依然受限于所采用的骨干模型(Qwen3-Omni)的基础能力。 📌 核心摘要 本文针对大型音频语言模型在长音频理解任务(尤其是需要精确时间感知的任务)中性能显著下降的问题,提出了一套综合解决方案。 要解决什么问题:现有模型在处理长达数分钟至数十分钟的音频时,常出现“时间幻觉”(预测事件超出音频范围)和“时间戳漂移”(时间对齐逐渐偏离)等典型失败模式。 方法核心是什么:提出了LAT-Audio框架,将长音频时间感知任务建模为“全局到局部”的渐进式推理范式。模型首先生成一个简化的全局时间线,作为整体的时序语义上下文,然后通过“思考-工具调用”的思维链(TWA-CoT)迭代地裁剪和处理局部音频片段,以逐步精炼答案。 与已有方法相比新在哪里:a) 数据:构建了LAT-Chronicle数据集(1.2k小时,中英双语,覆盖6类复杂场景),解决了长音频精确时间标注数据稀缺的问题。b) 评测:提出了首个支持30分钟音频的人工验证基准LAT-Bench,涵盖密集音频描述、时间定位和目标描述三大核心任务。c) 范式:TWA-CoT框架通过工具调用动态获取局部音频证据,克服了传统链式思维仅依赖文本推理的局限,并显式建模了全局结构。 主要实验结果如何:在LAT-Bench上,LAT-Audio在所有任务上均超越了Gemini系列和Qwen3-Omni等强基线。例如,在时间定位任务上,LAT-Audio的mIoU达到47.2(中文)和50.0(英文),比Gemini-2.5-Pro高出约17.1%和13.8%。消融实验证实,全局时间线、TWA-CoT和强化学习阶段均对性能有显著贡献。模型对输入音频长度的鲁棒性也显著优于基线。 实际意义是什么:为长音频分析(如会议记录、播客理解、媒体内容检索)提供了更可靠的工具,并开源了数据集、基准和模型,推动了长音频理解领域的研究进展。 主要局限性是什么:多轮推理与工具调用增加了计算开销和延迟,限制了实时应用;当前框架聚焦单音频输入,未扩展至更复杂的多模态场景;最终性能仍受骨干模型能力的制约。 🏗️ 模型架构 LAT-Audio的整体框架如下图所示,其核心是“渐进式全局到局部推理范式”。 ...

2026-04-27