Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps
📄 Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps #语音识别 #语音翻译 #大语言模型 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jonas Waldendorf (University of Edinburgh) *论文标注“Work completed during an internship at Amazon AGI” 通讯作者:Evgenii Tsymbalov (Amazon AGI) *根据邮箱 etsymba@amazon.de 推断 其他作者:Bashar Awwad Shiekh Hasan (Amazon AGI) 💡 毒舌点评 亮点:论文巧妙地将文本LLM幻觉检测的注意力分析思路“翻译”到了语音领域,设计了四个抓住语音模态特性的指标,像给模型装了个“注意力心电图”来诊断“幻觉心律不齐”,在干净数据上效果拔群。 槽点:但这个“诊断仪”有点“偏科”,在ASR和S2TT两个任务间几乎无法通用,得重新训练,而且严重依赖一个高精度但低召回的自动标注器来打标签,相当于用一套有漏检的评分标准来训练医生,让人对其泛化能力打个问号。 🔗 开源详情 代码:论文提到代码在GitHub上开源(“GitHub Issue”),但未提供具体URL。推断为部分开源。 模型权重:未提及开源训练好的逻辑回归检测器权重。 数据集:使用公开数据集(VoxPopuli, CALLHOME, Fleurs),但自动标注的幻觉标签数据集未提及单独发布。 在线Demo:未提及。 依赖的开源工具:使用了scikit-learn训练逻辑回归,XCOMET-XL和多种多语言模型(xlm-roberta-base, paraphrase-multilingual-MiniLM, mDeBERTa-v3-xnli)进行评估和标签生成。 📌 核心摘要 本文旨在解决语音大模型(SpeechLLMs)在推理时产生的“幻觉”问题,即生成与输入音频不符的流畅文本。现有方法依赖昂贵的黄金标准输出,而文本LLM的方法无法捕捉音频特有信号。为此,作者提出了四个基于注意力图的轻量级指标(AudioRatio, AudioConsistency, AudioEntropy, TextEntropy),用于捕捉与幻觉相关的病态注意力模式(如注意力回退到音频开头、对角线结构退化)。在Qwen-2-Audio和Voxtral-3B模型上,使用这些指标训练逻辑回归分类器。实验表明,在域内ASR数据(VoxPopuli)上,该方法显著优于不确定性估计和先前注意力基线(PR-AUC提升高达+0.23)。研究发现,仅需约100个注意力头即可获得强性能,且能改善跨域泛化。然而,方法效果依赖于模型和任务,在嘈杂数据(CALLHOME)上泛化能力下降,且在ASR上训练的模型无法直接用于语音翻译(S2TT),突显了幻觉模式的任务特异性。 🏗️ 模型架构 本文并未提出一个新的端到端SpeechLLM架构,而是设计了一个基于注意力特征的轻量级幻觉检测器,该检测器作为插件,在现有的SpeechLLM(如Qwen-2-Audio, Voxtral-3B)推理时并行工作。 ...