VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech
📄 VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech #模型评估 #音频大模型 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yi-Cheng Lin (台湾大学 通信工程研究所) 通讯作者:Hung-yi Lee (台湾大学 通信工程研究所, 人工智能卓越研究中心) 其他作者: Yusuke Hirota (NVIDIA,台湾) Sung-Feng Huang (台湾大学 通信工程研究所) 机构: 国立台湾大学 通信工程研究所 (Graduate Institute of Communication Engineering, National Taiwan University) NVIDIA,台湾 国立台湾大学 人工智能卓越研究中心 (Artificial Intelligence Center of Research Excellence, National Taiwan University) 💡 毒舌点评 亮点:这篇论文最巧妙的地方在于“让模型自由发挥”——用开放生成任务代替选择题,就像撤掉考场的栅栏,让模型在真实场景下的“偏见本能”无处遁形。结合真实人声录音,评估框架的设计非常贴近实际应用,比那些用合成语音做选择题的“象牙塔测试”高明不少。 槽点:但它的“考场”只设在了英语世界(两个英文数据集),对于口音偏差的评估也仅限于非母语英语者,全球化视角稍显局限。另外,偏差的定义仍集中在“分布差异”上,对于更复杂的个体公平、交叉性公平(如同时考虑性别和口音)探讨不足,算是开了个好头,但远未终结话题。 🔗 开源详情 代码与工具:论文明确说明“The VIBE benchmark code and evaluation prompts will be released under an open-source license for reproducibility.” 但未在文中提供具体的GitHub链接。 模型权重:VIBE是评估框架,不涉及训练新模型。它评估的是现有的11个LALM,这些模型的权重(如Qwen2-Audio, Phi-4)大多已在Hugging Face等平台公开。 数据集:使用了两个公开数据集: CREMA-D:开放数据库许可证(ODbL v1.0)。 L2-ARCTIC:CC BY-NC 4.0许可证。 预训练权重:不适用。 在线Demo:论文中未提及。 引用的开源项目:论文中提到了使用的推理框架vLLM,以及作为提取器的Qwen3-8B模型。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在开放生成任务中社会偏见评估不足的问题。现有基准多依赖合成语音和选择题(MCQ),无法捕捉模型在真实交互中自然流露的刻板印象。为此,作者提出了VIBE框架,其核心是使用真实人声录音输入模型,并通过开放生成任务(如故事创作、个性化推荐)来激发模型的潜在偏见。框架采用“输入音频+任务提示 → LALM生成自由文本 → LLM提取器结构化属性 → 计算组间分布差异(nTVD)”的流程进行量化。通过对11个主流LALM在5个任务上的评估,论文揭示了三个关键发现:1) 偏见具有高度任务依赖性,叙事和推荐类任务更容易引发偏见;2) 没有模型能在所有任务上都保持低偏见;3) 性别线索通常比口音线索引发更显著的输出分布偏移,表明模型复制了社会性别刻板印象。该工作为LALM的公平性评估提供了一个更真实、可扩展的新基准。 ...