All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
📄 All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation #模型评估 #音频问答 #音频大模型 #大语言模型 #多模态模型 ✅ 6.5/10 | 前50% | #音频问答 | #模型评估 | #音频大模型 #大语言模型 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Leonardo Haw-Yang Foo(未说明具体单位,但论文地址为National Taiwan University) 通讯作者:未说明(论文未明确指定通讯作者,通常由第一作者或末位作者负责,此处未明确) 作者列表: Leonardo Haw-Yang Foo (National Taiwan University, NTU AI-CoRE) Chih-Kai Yang (National Taiwan University, NTU AI-CoRE) Chen-An Li (未说明) Ke-Han Lu (未说明) Hung-yi Lee (National Taiwan University, NTU AI-CoRE) 💡 毒舌点评 亮点:论文像一位敏锐的审计师,用“无音频输入”和“音频分段测试”两把尺子,清晰量出了当前音频-语言模型在“裸考”(无音频)时依然能得高分(60-72%),且需要整段音频才能答对的题目极少(仅3-4%),这记耳光打醒了盲目乐观的“分数崇拜”。短板:诊断出了病症,但开的“处方”(第5章的建议)却非常笼统,缺乏可直接执行的“新基准”或“新评估工具”,更像是向学界发出的一份呼吁而非解决方案。 ...