📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models
#语音识别 #多模态模型
8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5
🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv
👥 作者与机构
作者:Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构:KAIST
💡 毒舌点评
这篇论文填补了一个明显但重要的空白:当前的音频-视觉幻觉基准大多盯着狗叫警笛,而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而,作为一个基准测试论文,它的“方法”本质上是一套精心设计的问卷和数据构建流水线,技术深度有上限。最大的槽点在于数据集完全依赖YouCook2,这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上,对现实世界中多变的语音风格(对话、旁白、嘈杂环境)和视频内容的泛化能力存疑。所有任务都用选择题,这更像是在测“辨别力”而非真正的“生成式幻觉”,可能高估了模型在实际对话场景中的可靠性。尽管如此,它系统性地揭示了开源模型在语音-视觉对齐上的无能,以及与商业模型的巨大鸿沟,这点功劳必须认可。
📌 核心摘要
本文指出,现有的音频-视觉大语言模型(AV-LLMs)幻觉基准主要评估环境声音(如狗叫)引发的幻觉,忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此,作者提出了SVHalluc,这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断,并分别为每个维度设计了三个由粗到细的任务(共六个)。在六个开源及商业AV-LLMs上的零样本评估表明,开源模型在多个任务上表现接近随机猜测,而Gemini 2.5 Pro显著优于所有开源模型,揭示了巨大差距。深入分析表明,模型失败的根源在于有限的跨模态信息整合与推理能力,而非单模态感知(如语音识别)的不足。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及具体模型权重的下载链接。论文评估了多个开源模型(Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2)和商业模型(Gemini 2.5 Pro),但未提供它们的HuggingFace或ModelScope链接。
- 数据集:论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建,使用了其验证集,并通过自动化流程(使用Whisper模型进行语音转写,GPT模型辅助生成负样本)进行增强。论文中未提供SVHalluc数据集本身的直接下载链接,但提供了项目主页:https://chenshuang-zhang.github.io/projects/svhalluc/,可能包含获取信息。
- Demo:论文中未提及。
- 复现材料:
- 数据集构建细节:论文详细描述了SVHalluc数据集的自动构建流程,包括使用GPT模型提取动作和对象的提示词(见附录B)、数据集质量控制策略(见附录C)。
- 评估指标:对于二分类任务,报告了准确率、精确率、召回率和F1分数;对于多分类任务,报告了准确率。
- 实验设置:论文明确指出所有评估均在零样本(zero-shot)设置下进行,无需额外训练。
- 论文中引用的开源项目:
- YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。
- Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接:https://github.com/openai/whisper
- Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签,以评估模型的时间定位能力。项目链接:https://github.com/snakers4/silero-vad
🏗️ 方法概述和架构
本文提出的方法是构建名为SVHalluc的基准测试,用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分:基准任务设计和数据集构建流水线。
- 基准任务设计(SVHalluc Taxonomy) 基准围绕两个正交且互补的维度构建:
- 语义幻觉(Semantic Hallucination):评估模型能否正确识别语音内容与视觉证据的语义对应关系,避免幻觉出不存在的实体或事件。
- 任务1:全局语义对齐(GSA):一个二选一问题“语音是否描述了视频中的视觉事件?”。测试模型能否检测语音与视频整体的语义错位,避免默认对齐的偏差。
- 任务2:细粒度语义对齐(FGSA):一个二选一问题“视频中是否可见[物体]?”。测试模型能否识别语音中提到的具体物体是否在视频中真实存在。
- 任务3:跨模态语义绑定(CMSB):一个二选一问题“视频中是否可见[事件]?”。其中,
[事件]由语音中提到的动作与视频中出现的物体(或反之)错误组合而成。正确答案应为“否”,测试模型是否会被语音和视觉的错误绑定所迷惑,幻觉出不存在的事件。
- 时间幻觉(Temporal Hallucination):评估模型能否识别所述事件在视觉上相对于语音被听到的时刻是发生在过去、现在还是未来。
- 任务4:时间对齐(TA):一个二选一问题“当语音被听到时,描述的事件是否同时在视频中发生?”。测试模型对语音-视频事件同步性的判断。
- 任务5:时间预测(TF):一个多选题“相对于语音被听到的时刻,描述的事件发生在视频的何时?(过去/现在/未来)”。测试模型对事件发生时序的推理能力。
- 任务6:跨模态时间绑定(CMTB):一个三选题“当语音被听到时,视频中实际发生的动作是?”。选项包括语音中提到但发生在不同时间的事件、当时实际发生的视觉事件以及来自其他视频的干扰事件。测试模型在语音描述非当前时刻事件时,能否专注于当前的视觉证据,避免时间错位的幻觉。
- 数据集构建流水线 数据集基于YouCook2验证集构建,自动化流水线如下:
- 视频收集与预处理:利用YouCook2中语音与视觉动作对齐良好的特性,将视频剪辑为过程片段。使用Whisper ASR模型获取语音转录文本。
- 语义幻觉样本构建:
- GSA:正样本为原始对齐的语音-视频对\((A_i, V_i)\)。负样本为将一段语音\(A_j\)与另一段视频\(V_i\)随机配对形成的错位对。
- FGSA:使用GPT从视频和语音的详细标注中提取“可见物体”和“不可见(但被语音提及)物体”,分别填入问题模板生成正负样本。
- CMSB:使用GPT从视频标注中提取“视觉可见的动作-物体对”作为正事件。为构建负事件(幻觉事件),先用GPT提取“仅语音中提及的动作/物体”和“仅视觉中出现的动作/物体”,然后跨模态组合(如“语音动作+视觉物体”),并用GPT过滤掉不合理的组合。
- 时间幻觉样本构建:利用YouCook2的事件起止时间标注。定义语音时刻\(t_{speak}\)和事件视觉发生时刻\(t_{visual}\)。通过比较两者的时间差,将样本定义为时间对齐(\(t_{speak}\)接近\(t_{visual}\))或时间错位(\(t_{visual}\)远早于或晚于\(t_{speak}\)),以此构建TA和TF任务的样本。CMTB任务则直接使用事件标注作为选项。
- 质量控制:先用GPT模型过滤掉语音过短或描述不清晰的样本,最后通过人工验证确保所有样本清晰可靠。
整个基准共包含2405个视频-问题对,平衡了各任务选项的分布。


💡 核心创新点
- 问题定义创新:首次明确将“语音-视觉幻觉”作为一个独立且重要的研究问题提出,区别于以往基于环境声音的幻觉评估。强调了语音内容的复杂语义和时间结构对跨模态理解构成的全新挑战。
- 基准设计创新:提出了SVHalluc,这是第一个系统、全面地评估语音-视觉幻觉的基准。其创新在于从“语义”和“时间”两个正交维度构建了一个层次化(由粗到细)的六任务诊断框架,能够精细地定位模型在跨模态对齐中的具体失败模式。
- 实验发现:通过大规模评估,实证揭示了当前开源AV-LLMs在语音内容理解上的系统性失败(接近随机猜测),以及其与最先进商业模型(Gemini 2.5 Pro)之间存在的巨大性能鸿沟。分析明确指出瓶颈在于跨模态整合而非单模态感知。
📊 实验结果
论文在六个AV-LLMs上进行了零样本评估,包括四个开源模型(Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2)和一个商业模型(Gemini 2.5 Pro)。实验结果如表2和表3所示。
表2:语义幻觉任务结果
| 模型 | GSA Acc. | GSA Prec. | GSA Recall | GSA F1 | FGSA Acc. | FGSA Prec. | FGSA Recall | FGSA F1 | CMSB Acc. | CMSB Prec. | CMSB Recall | CMSB F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 93.10 | 90.24 | 96.64 | 93.33 | 86.06 | 80.22 | 95.79 | 87.32 | 78.56 | 74.58 | 92.98 | 82.77 |
| video-SALMONN | 52.05 | 51.06 | 99.25 | 67.43 | 49.84 | 49.92 | 96.12 | 65.71 | 61.10 | 56.63 | 94.88 | 70.92 |
| video-SALMONN 2 | 53.92 | 62.35 | 19.78 | 30.03 | 79.58 | 79.42 | 79.94 | 79.68 | 72.77 | 65.71 | 95.26 | 77.77 |
| VideoLLaMA 2 | 50.00 | 50.00 | 100.00 | 66.67 | 67.57 | 58.44 | 94.74 | 72.29 | 73.03 | 68.22 | 96.69 | 80.00 |
| Qwen2.5-Omni | 77.70 | 73.75 | 86.04 | 79.42 | 81.08 | 77.60 | 87.39 | 82.20 | 72.28 | 64.48 | 99.25 | 78.17 |
| Qwen3-Omni | 55.10 | 52.86 | 100.00 | 69.16 | 79.50 | 72.00 | 97.30 | 82.76 | 74.34 | 66.17 | 99.63 | 79.52 |
| Random Choice | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 | 50.00 |
表3:时间幻觉任务结果
| 模型 | TA Acc. | TA Prec. | TA Recall | TA F1 | TF Acc. | CMTB Acc. |
|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 85.17 | 82.67 | 89.00 | 85.71 | 53.89 | 69.25 |
| video-SALMONN | 50.00 | 50.00 | 87.08 | 63.53 | 32.81 | 37.39 |
| video-SALMONN 2 | 50.00 | 50.00 | 100.00 | 66.67 | 33.33 | 48.58 |
| VideoLLaMA 2 | 50.00 | 50.00 | 100.00 | 66.67 | 32.25 | 45.72 |
| Qwen2.5-Omni | 50.27 | 50.28 | 49.46 | 49.86 | 31.52 | 53.10 |
| Qwen3-Omni | 51.11 | 50.84 | 100.00 | 67.41 | 30.60 | 61.75 |
| Random Choice | 50.00 | 50.00 | 50.00 | 50.00 | 33.33 | 33.33 |
关键发现总结:
- 开源模型普遍失败:在GSA、TA、TF等多个任务上,开源模型准确率接近随机猜测(约50%或33%)。在GSA任务中,高Recall、低Precision的表现(如Qwen3-Omni)证实了模型存在强烈的“对齐偏差”,倾向于假设语音描述了视频。
- 商业模型大幅领先:Gemini 2.5 Pro在所有任务上均显著优于开源模型,例如在GSA上达到93.10%的准确率,证明了任务的可解性以及当前开源与闭源模型间的巨大差距。
- 任务难度差异:模型在细粒度任务(如FGSA)上表现相对较好(如Qwen系列),但在需要更复杂推理的绑定任务(如CMSB)和时间任务(如TF)上表现更差。
- 消融分析(表4):以Qwen3-Omni为例的分析表明,提供语音转录文本对部分任务(如FGSA)有帮助,但对需要时间推理或作为干扰项的任务(如CMTB)无益甚至有害。单模态输入(仅视频/仅音频)实验进一步证实,模型在语义任务上有时能依靠视觉,但在时间绑定任务上必须结合双模态,而模型未能有效整合。


⚖️ 评分理由
- 创新性 (1.5/2):准确识别了现有幻觉评估中被忽视的关键维度(语音内容),并系统性地提出了首个针对该问题的基准,定义清晰,具有明确的创新价值。
- 技术严谨性 (1.2/1.5):基准任务设计逻辑严密,从粗到细形成诊断体系。数据集构建流水线自动化程度高,并辅以质量控制。但评估形式限于选择题,可能无法完全反映生成式场景下的幻觉。
- 实验充分性 (1.8/2):评估了多个最新开源及商业模型,实验设置(零样本)合理。结果分析深入,包括模态消融、ASR/VAD能力验证等,有力支撑了核心论点。表格数据完整,对比清晰。
- 清晰度 (2/2):论文结构清晰,写作流畅,问题背景、方法设计、实验分析逻辑连贯,图表和表格辅助说明到位,易于理解。
- 影响力 (1.8/2):揭示了AV-LLMs一个基础且重要的局限性,明确了未来改进方向(加强跨模态整合)。实验结果(开源模型的失败与巨大差距)对社区有警示和激励作用,潜在影响力较高。
- 开源 (0/1.5):论文未提供任何代码、预训练模型权重或评测数据集(SVHalluc)的直接下载链接,仅提供了项目主页。开源贡献严重不足。
- 可复现性 (1/1.5):虽然论文详细描述了基准设计、数据集构建流程和实验设置,理论上可复现,但由于核心评测数据集未开源,实际上无法直接复现其主要实验结果。
- 工程/实践价值 (1.5/1.5):提出的SVHalluc基准为评估和改进AV-LLMs的语音理解能力提供了重要工具,具有明确的工程实践价值,尤其是在模型诊断和迭代开发方面。
🚨 局限与问题
- 数据集领域单一性:所有数据均来自YouCook2(烹饪教学视频),其语音风格以清晰、连续的解说为主,视频场景(厨房)和内容(烹饪步骤)高度同质化。这严重限制了结论对更广泛现实场景(如日常对话、新闻播报、电影、户外视频)的泛化性。论文虽在讨论中提及,但未充分探讨此局限对基准评估有效性的影响。
- 评估形式与生成幻觉的差距:所有任务均采用选择题形式,这本质上是评估模型的“辨别能力”而非“生成能力”。模型可能在选择题上表现尚可,但在开放式生成中依然会产生幻觉。基准定位为诊断性的“能力测试”是合理的,但论文未深入讨论这种评估形式与真实世界应用需求之间的差距。
- 对“对齐偏差”假设的验证不足:论文通过分析GSA任务中模型倾向于选择“Yes”及其高Recall/Low Precision的特点,推测存在“对齐偏差”。然而,缺乏更直接的统计证据(例如,统计所有GSA样本中模型选择“Yes”的绝对比例分布,或分析模型置信度)来定量证实这一偏差的普遍性和强度。
- 与最相关工作的对比可更深入:论文提及了AVHBench等,但对比主要停留在“环境声音 vs. 语音内容”的层面。SVHalluc在任务设计(如时态推理、跨模态绑定)上确实有不可替代性,但可进一步分析AVHBench中某些概念重叠的任务(如“声音是否与视频匹配”),以更清晰地界定本工作的增量贡献。
- 商业模型分析深度有限:论文着重展示了Gemini 2.5 Pro的优越性能,但对其成功原因的分析较为表面(仅归因于“更好的跨模态理解”)。缺乏基于公开信息的、推测性的技术分析(例如,其预训练数据或架构可能如何更好地对齐���音与视觉)来启发读者,使这一重要对比的启发性价值未被充分挖掘。
- 对语音本身变异性的忽视:基准构建基于清晰的烹饪解说语音,但现实中的语音存在口音、语速、情绪、背景噪声等巨大差异。论文未探讨这些因素如何影响模型的语音-视觉对齐能力,也未在数据集中系统性控制或评估这些变量。
- 负样本生成的潜在偏差:在CMSB等任务中,负样本(幻觉事件)的生成依赖GPT从标注中提取并重新组合。这个过程可能引入语言模型自身的偏差(例如,生成不自然或不合理但模型仍可能误判的事件组合),从而影响评估的纯粹性。
📷 论文图片
