Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding
📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao(西北工业大学) 通讯作者:Lei Xie(西北工业大学) 作者列表:Mingchen Shao(西北工业大学)、Hang Su(独立研究者)、Wenjie Tian(西北工业大学)、Bingshen Mu(西北工业大学)、Zhennan Lin(西北工业大学)、Lichun Fan(独立研究者)、Zhenbo Luo(独立研究者,清华大学相关)、Jian Luan(独立研究者)、Lei Xie(西北工业大学) 💡 毒舌点评 这篇论文的亮点在于其“庖丁解牛”式的系统设计:面对长音频时间感知这一老大难问题,没有硬磕模型本身,而是从数据、评测、推理范式三个层面给出了一套“组合拳”,尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而,其短板也很明显:框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战,且最终性能的天花板依然受限于所采用的骨干模型(Qwen3-Omni)的基础能力。 🔗 开源详情 代码:论文承诺开源,并提供了GitHub仓库链接:https://github.com/alanshaoTT/LAT-Audio-Repo。 模型权重:论文提及基于Qwen3-Omni-30B进行训练,但未明确说明最终模型权重是否开源。根据仓库名推测,模型权重可能也会开源。 数据集:LAT-Chronicle数据集和LAT-Bench基准承诺开源,但未说明具体获取方式(如需申请或直接下载)。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的三阶段训练策略、关键超参数(学习率、批大小、组大小)、奖励函数设计以及数据集的构成统计,复现材料较为充分。 引用的开源项目/工具: 骨干模型:Qwen3-Omni-30B-A3B-Instruct (Team, 2025c) 训练框架:Swift (Zhao et al., 2025) 对比模型/工具:Audio-Flamingo3 (Goel et al., 2025)、Gemini系列 (Team, 2025a)、Step-Audio-R1.1 (Tian et al., 2025)、Time-Audio (Wang et al., 2026) 评估指标:FENSE (Zhou et al., 2022; Dinkel et al., 2025) 原子标注中使用的模型:Gemini-2.5-Pro、LLM-ForceAligner (Mu et al., 2026) 强化学习算法:Group Relative Policy Optimization (Shao et al., 2024) 📌 核心摘要 本文针对大型音频语言模型在长音频理解任务(尤其是需要精确时间感知的任务)中性能显著下降的问题,提出了一套综合解决方案。 ...