📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

#基准测试 #模型评估 #音频大模型

🔥 评分：9.0/10 | arxiv

👥 作者与机构

第一作者： Feiyu Zhao（天津大学，智能与计算学院）
通讯作者： Jianguo Wei（天津大学，智能与计算学院）
其他作者： Yiming Chen（华硕智能云服务，新加坡；与第一作者贡献相等），Wenhuan Lu（天津大学，智能与计算学院），Daipeng Zhang（天津大学，智能与计算学院），Xianghu Yue（天津大学，智能与计算学院）

💡 毒舌点评

亮点： 这篇论文堪称“音频大模型照妖镜”，首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”，设计了各种刁钻的“听力测试题”（对抗性提示、混合音频），揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症，为领域提供了急需的诊断工具。 槽点： 主要是个“体检报告”而非“治疗方案”，它精确诊断了问题但并未提出新的缓解方法。另外，部分任务（如单词顺序判断）可能过于依赖模板，模型或许能通过“猜”而非真正“听”来应付。

🔗 开源详情

代码： 已开源。GitHub地址：https://github.com/Feiyuzhao25/halluaudio
数据集： HalluAudio基准测试数据集已随代码开源，包含所有QA对和音频引用。
模型权重： 本文不涉及新模型的训练，因此不提供模型权重。评估的是已有的公开或闭源模型。
在线Demo： 论文中未提及在线Demo。
依赖的开源工具/模型： 评估中使用了多个开源LALM，如Qwen-Audio, Qwen2-Audio, Llama-Omni, MiMo-Audio等（详见附录D）。

📌 核心摘要

这篇论文旨在解决大型音频语言模型（LALM）中普遍存在的“幻觉”问题（即生成与音频证据不符的内容）缺乏系统性评估工具的难题。为此，作者构建并发布了HalluAudio，这是首个大规模、多领域（语音、环境声、音乐）、多任务（二分类、多选、属性验证、开放生成）的人工验证音频幻觉检测基准，包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉，并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估，论文发现：1）幻觉是普遍且领域依赖的系统性问题；2）即使在标准基准上表现优异的模型，在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败；3）模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。

🏗️ 模型架构

注意： 本文的核心贡献是提出一个评估基准（Benchmark），而非一个新的模型架构。因此，本节将详细描述该基准测试的整体架构和评估流程。

整体架构（评估管线）： 如图1所示，HalluAudio的评估是一个模块化、端到端��流程，旨在系统性地引发、测量和分析LALM中的幻觉。
1. 输入层： 从语音（Common Voice）、环境声（FSD50K）、音乐（GTZAN, Mridangam）数据集中选择音频片段。
2. 任务构建层： 对每个音频，使用参数化提示模板生成问题。模板包含可替换的槽位（如单词、标签），通过填充有效或无效的属性来生成“可回答”或“故意不可回答”的查询，以诱发不同类型的幻觉。
3. 模型推理层： 将构建好的“音频-问题”对输入到待评估的LALMs中，采用零样本协议，模型输出为文本。
4. 输出标准化层： 由于模型输出形式多样（如“是的”、“Yes.”、“确实如此”），需要通过文本处理（小写化、去标点、关键词匹配）将其标准化为结构化标签（如Yes, No, 数字, Refusal）。
5. 有效性检查与行为分析层： 将标准化后的输出与标准答案进行比对，计算各项指标（准确率、是/否偏差、错误拒绝率等），并进行细粒度的错误类型分析（如幻觉性肯定回答、错误的任务 grounding 答案、错误拒绝）。
关键设计选择理由：
- 参数化模板： 确保生成大规模、可控且与音频内容精确对齐的QA对。
- 对比性/对抗性构造： 通过最小化修改（如改变单词顺序、引入噪声）创建正负对比样本，以孤立出引发幻觉的具体触发器。
- 多领域覆盖： 确保评估的全面性，因为模型在不同音频域（语言 vs. 非语言）可能表现出不同的幻觉模式。
- 多维度指标： 超越简单的准确率，诊断模型的行为偏差（如盲目肯定）和保守性偏差（如过度拒绝）。

💡 核心创新点

首个大规模、多领域音频幻觉基准： 提出了HalluAudio，这是第一个专门针对音频（涵盖语音、环境声、音乐）的、大规模（>5K QA对）、经过人工验证的幻觉检测基准，填补了该领域的关键空白。
系统性的幻觉诱导方法： 创新性地设计了对比性任务（如单词顺序、声音共存）和对抗性/无效查询（如询问不存在的说话者性别、随机声音标签），以主动、可控地触发模型的各类幻觉行为（虚构、证据矛盾、无根据肯定）。
多维度诊断评估框架： 提出了一套超越准确率的评估指标，包括是/否偏差测试（Yes-p Ratio, Unrelated Ratio, Conditional Accuracy）和错误拒绝率，能够细粒度地区分模型的不同失败模式（如感知错误、推理错误、过度保守）。
深入的跨模型与跨领域实证分析： 对12个具有代表性的开源和闭源LALM进行了首次大规模、跨领域的对比评估，揭示了幻觉行为的领域特异性（如语音中的结构幻觉、环境声中的感知幻觉）和模型特异性，为未来模型改进提供了明确方向。

🔬 细节详述

数据集构建：
- 来源： 语音（Common Voice）、环境声（FSD50K）、音乐（GTZAN, Mridangam Strokes, Mridangam Tonics）。
- 规模： 总计5720个QA对。其中，语音域任务最丰富（包括重叠检测、词序、计数、无效查询等），环境声音侧重存在性与共现性，音乐侧重乐器/流派识别与比较。
- 流程： 五步管线：1) 音频选择；2) 模板生成；3) 对比/对抗构造；4) 人工验证（三轮，Cohen‘s κ=0.91）；5) 打包与平衡。
- 关键设计： 包含2662个对比性任务和621个明确的对抗性/无效查询，57.4%的数据旨在通过控制扰动或证据缺失来探测幻觉。
评估指标：
1. 准确性： 标准任务准确率。
2. 是/否偏差测试：
  - Yes-p Ratio: 在二元问题中回答“Yes”的比例。
  - Unrelated Ratio: 在回答错误的样本中，模型给出与问题无关答案的比例。
  - Conditional Accuracy: 基于预测类别（Yes/No）划分的条件准确率。
3. 错误拒绝率： 模型拒绝回答可回答问题的比例。
评估模型： 共12个模型，包括2个闭源（GPT-4o-Audio, Gemini-2.5-Flash）和10个开源模型（如Qwen系列、Llama-Omni系列、MiMo-Audio、Step-Audio-2等）。
关键发现（实验数据）：
- 语音域： MiMo-Audio和Step-Audio-2在时序任务上表现优异（如重叠检测准确率>96%），而Qwen-Audio、Pengi等在某些子任务上低于50%。Phi-4在噪声和性别扰动下性能下降。
- 环境声域： MiMo-Audio和Qwen2.5-Omni在时序比较任务上领先。Audio Flamingo3和Pengi在多标签识别上表现不佳。模型在“随机错误”提示下行为分化：一些自信地幻觉，另一些则过度拒绝。
- 音乐域： GPT-4o-Audio和MiMo-Audio相对稳健，而Pengi和Qwen2-Audio在流派/乐器识别上接近随机水平。在计数和排序任务上，模型普遍表现不佳（如Gemini-2.5-Flash低于15%）。
- 是/否偏差： Qwen系列模型在跨域任务中表现出强烈的肯定回答倾向。在环境声任务中，这种偏差最明显。
- 错误拒绝： Gemini-2.5-Flash和Qwen2-Audio表现出最严重的过度拒绝倾向，尤其在结构复杂的任务（计数、速度比较）和感知不确定的任务（声音共存）中。

📊 实验结果

主要指标对比（表格数据复述）：

语音域（部分关键任务）：
- Overlap（重叠检测）：MiMo-Audio: 96.30%, Step-Audio-2: 99.47%, GPT-4o: 57.67%, Gemini: 9.84%。
- Order（词序判断）：MiMo-Audio: 79.59%, Step-Audio-2: 61.22%, GPT-4o: 79.18%, Gemini: 38.59%。
- Gender（无效性别查询）：多数模型准确率极低（如Qwen-Audio: 0.13%），表明它们倾向于为无效问题生成内容。
环境声域（部分关键任务）：
- Presence（声音存在）：Qwen2.5-Omni: 87.97%, MiMo-Audio: 94.88%, GPT-4o: 66.53%, Gemini: 25.53%。
- Mismatch（不匹配查询）：Qwen2.5-Omni: 98.17%, MiMo-Audio: 95.33%, GPT-4o: 39.84%, Gemini: 78.24%。
音乐域（部分关键任务）：
- Genre（流派匹配）：GPT-4o: 67.81%, MiMo-Audio: 67.81%, Pengi: 32.55%, Gemini: 20.91%。
- Order（音乐顺序）：MiMo-Audio: 100%, Step-Audio-2: 100%, GPT-4o: 99.66%, Gemini: 13.45%。
错误拒绝率（语音域）： Gemini-2.5-Flash在多数任务上FRR > 20%，Qwen2-Audio在Count任务上FRR极高。MiMo-Audio, Step-Audio-2, Kimi-Audio在多数任务上FRR接近0。
鲁棒性测试（附录C）： 对5个模型进行释义不变性测试，性能平均变化仅0.7%，证明基准测试结果主要由任务结构驱动，而非提示措辞。

⚖️ 评分理由

创新性：9/10 - 在音频大模型可靠性评估这一关键且未被充分探索的方向上，提出了首个综合性基准，创新点明确且具有很高的原创性。
实验充分性：9.5/10 - 数据集构建严谨，评估模型全面（涵盖主流开闭源模型），分析维度丰富（准确率、偏差、拒绝率、错误类型），并进行了鲁棒性验证，实验设计非常充分。
实用价值：9/10 - 为社区提供了急需的诊断工具，其评估结果直接指出了当前LALM的可靠性短板，对模型开发者和应用者都有重要指导意义，实用价值极高。
灌水程度：1/10 - 论文内容扎实，聚焦于解决一个明确的问题，没有冗余或夸大表述，贡献清晰。

🖼️ 图片与表格

图片保留建议：

图1: HalluAudio评估流程示意图 | 保留: 是 - 理由：清晰展示了基准测试从输入到分析的全流程，是理解论文方法的核心。
图2: HalluAudio数据集任务组成与统计 | 保留: 是 - 理由：直观展示了三个领域的任务分布和规模，体现了基准测试的多样性和平衡性。
图3: 是/否偏差分析（语音与环境声） | 保留: 是 - 理由：展示了关键诊断指标（Yes-p Ratio, Unrelated Ratio, Conditional Accuracy）的模型对比，揭示了重要的行为模式。
图4: 错误拒绝率分析（语音与环境声） | 保留: 是 - 理由：展示了另一关键行为模式，模型间的差异显著，具有重要分析价值。
图5-6: 音乐域的偏差与拒绝分析 | 保留: 是 - 理由：补充了音乐域的分析，使评估更完整。
图7: 语音域任务准确率热力图 | 保留: 是 - 理由：以热力图形式浓缩了多个模型在多个语音子任务上的表现，信息密度高，便于对比。

关键表格数据（以文字形式复述）：

表2（数据集统计）： 总计5720个QA对。语音域：189（重叠）+245（词序）+…+225（响度比较）= 约2300个。环境声域：254（重叠）+300（顺序）+…+300（响度比较）= 约2200个。音乐域：291（流派）+258（乐器）+…+300（计数）= 约1200个。
表4（语音域模型性能）： 列出12个模型在10个语音任务上的准确率。例如，MiMo-Audio在overlap任务得96.30，在order得79.59，在gender得0.58。
表5（环境声域模型性能）： 列出8个模型在7个环境声任务上的准确率。例如，Qwen2.5-Omni在overlap得87.97，在presence得87.97，在mismatch得98.17。
表6（音乐域模型性能）： 列出9个模型在9个音乐任务上的准确率。例如，GPT-4o-Audio在order得99.66，在genre得67.81，在count_t得14.67。

📸 论文图片

← 返回 2026-04-22 论文速递

📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文