SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models
📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models #语音识别 #多模态模型 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 作者:Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构:KAIST 💡 毒舌点评 这篇论文填补了一个明显但重要的空白:当前的音频-视觉幻觉基准大多盯着狗叫警笛,而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而,作为一个基准测试论文,它的“方法”本质上是一套精心设计的问卷和数据构建流水线,技术深度有上限。最大的槽点在于数据集完全依赖YouCook2,这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上,对现实世界中多变的语音风格(对话、旁白、嘈杂环境)和视频内容的泛化能力存疑。所有任务都用选择题,这更像是在测“辨别力”而非真正的“生成式幻觉”,可能高估了模型在实际对话场景中的可靠性。尽管如此,它系统性地揭示了开源模型在语音-视觉对齐上的无能,以及与商业模型的巨大鸿沟,这点功劳必须认可。 📌 核心摘要 本文指出,现有的音频-视觉大语言模型(AV-LLMs)幻觉基准主要评估环境声音(如狗叫)引发的幻觉,忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此,作者提出了SVHalluc,这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断,并分别为每个维度设计了三个由粗到细的任务(共六个)。在六个开源及商业AV-LLMs上的零样本评估表明,开源模型在多个任务上表现接近随机猜测,而Gemini 2.5 Pro显著优于所有开源模型,揭示了巨大差距。深入分析表明,模型失败的根源在于有限的跨模态信息整合与推理能力,而非单模态感知(如语音识别)的不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重的下载链接。论文评估了多个开源模型(Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2)和商业模型(Gemini 2.5 Pro),但未提供它们的HuggingFace或ModelScope链接。 数据集:论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建,使用了其验证集,并通过自动化流程(使用Whisper模型进行语音转写,GPT模型辅助生成负样本)进行增强。论文中未提供SVHalluc数据集本身的直接下载链接,但提供了项目主页:https://chenshuang-zhang.github.io/projects/svhalluc/,可能包含获取信息。 Demo:论文中未提及。 复现材料: 数据集构建细节:论文详细描述了SVHalluc数据集的自动构建流程,包括使用GPT模型提取动作和对象的提示词(见附录B)、数据集质量控制策略(见附录C)。 评估指标:对于二分类任务,报告了准确率、精确率、召回率和F1分数;对于多分类任务,报告了准确率。 实验设置:论文明确指出所有评估均在零样本(zero-shot)设置下进行,无需额外训练。 论文中引用的开源项目: YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。 Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接:https://github.com/openai/whisper Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签,以评估模型的时间定位能力。项目链接:https://github.com/snakers4/silero-vad 🏗️ 方法概述和架构 本文提出的方法是构建名为SVHalluc的基准测试,用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分:基准任务设计和数据集构建流水线。 ...