Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding
📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频场景理解 #音频问答 #强化学习 #数据集 #基准测试 🔥 8.0/10 | 前25% | #音频场景理解 | #强化学习 | #音频问答 #数据集 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao (西北工业大学,Xi’an, China) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表: Mingchen Shao (西北工业大学) Hang Su (独立研究者,北京) Wenjie Tian (西北工业大学) Bingshen Mu (西北工业大学) Zhennan Lin (西北工业大学) Lichun Fan (独立研究者,北京) Zhenbo Luo (独立研究者,北京) Jian Luan (独立研究者,北京) Lei Xie (西北工业大学) 💡 毒舌点评 亮点:这篇论文非常“全套”,从数据集、评测基准到训练框架一气呵成,直面长音频时间感知的核心痛点(时间幻觉与漂移),并用全局到局部推理范式+TWA-CoT的“工具使用”方案给出了一个结构清晰、实验充分的解决方案。短板:其提出的TWA-CoT依赖多轮工具调用,论文自身也承认这会增加计算开销,牺牲了实时性,这在一定程度上限制了其在流式或资源受限场景下的实用价值。 ...