Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering
📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #时频分析 #跨模态 ✅ 7.0/10 | 前25% | #音频问答 | #多模态模型 | #时频分析 #跨模态 学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kun Li (University of Twente, Netherlands; 工作完成于 IT University of Copenhagen, Denmark) 通讯作者:Sami Sebastian Brandt (IT University of Copenhagen, Denmark) 作者列表:Kun Li(University of Twente, IT University of Copenhagen)、Michael Ying Yang(University of Bath)、Sami Sebastian Brandt(IT University of Copenhagen) 💡 毒舌点评 亮点:本文最大的优点在于“系统性”和“针对性”——它没有孤立地提出一个模块,而是构建了一个从早期查询引导到中期时空频交互、再到后期上下文推理的完整流水线,并且为每个阶段都找到了扎实的动机(例如,用频率特征解决视觉模糊问题)。短板:尽管在总分上超越了前作,但在Visual QA(特别是位置相关问题)子任务上仍略逊于使用了对象检测器等先验知识的方法(如QA-TIGER),这暗示其“纯频率视角”在需要精细空间推理的场景中可能存在天花板,创新性更多体现在对已知技术的巧妙整合与优化上。 ...