ORCA: Open-ended Response Correctness Assessment for Audio Question Answering
📄 ORCA: Open-ended Response Correctness Assessment for Audio Question Answering #音频理解 #大语言模型 #基准测试 #模型评估 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.9/10 | 前25% | #音频理解 | #大语言模型 | #基准测试 #模型评估 | arxiv 👥 作者与机构 第一作者:Šimon Sedláček(Brno University of Technology, Speech@FIT)、Sara Barahona(Universidad Autónoma de Madrid)、Bolaji Yusuf(Brno University of Technology, Speech@FIT)、Laura Herrera-Alarcón(Universidad Autónoma de Madrid)、Santosh Kesiraju(Brno University of Technology, Speech@FIT)(注明同等贡献) 通讯作者:未说明 作者列表:Šimon Sedláček(Brno University of Technology, Speech@FIT)、Sara Barahona(Universidad Autónoma de Madrid)、Bolaji Yusuf(Brno University of Technology, Speech@FIT)、Laura Herrera-Alarcón(Universidad Autónoma de Madrid)、Santosh Kesiraju(Brno University of Technology, Speech@FIT)、Cecilia Bolaños(University of Buenos Aires)、Alicia Lozano-Diez(Universidad Autónoma de Madrid)、Sathvik Udupa(Brno University of Technology, Speech@FIT)、Fernando López(Universidad Autónoma de Madrid)、Allison Ferner(Tufts University)、Ramani Duraiswami(University of Maryland)、Jan Černocký(Brno University of Technology, Speech@FIT) 💡 毒舌点评 亮点:将Beta分布引入音频QA评估,巧妙地把人类评分的均值和分歧度同时建模,并提供了一套完整的三阶段标注-修正流程,数据集价值较高。短板:框架严重依赖由Gemini生成的rationale和Whisper转录文本,这些文本grounding的质量直接影响评估上限;方法在大规模、多类型、多语言音频QA上的泛化能力完全未知,且关键训练超参数意外缺失,削弱了复现信心。 ...