📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems
#语音识别 #数据集 #基准测试
8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5
🔥 8.4/10 | 前50% | #语音识别 | #数据集 | #基准测试 | arxiv
👥 作者与机构
Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland
💡 毒舌点评
这篇论文很“实在”,做了最费力不讨好的活:标注数据。贡献是实打实的:第一个针对真实自然语音、来自多个SOTA模型的幻觉人工标注数据集。构建流程清晰,分析也全面。然而,创新性天花板明显——这就是个高质量数据集论文,算法和模型上的贡献薄弱。多层解码器嵌入检测器(DE 2,13,23)算是一个小改进,但离“突破”还远。基准测试也很有意思,证明了问题的难度,但只在Whisper large v3一个模型上深入评估了SOTA检测方法,对于号称要评估七个模型的数据集来说,这深度不够。最大的“软肋”在于数据集本身:为了保证幻觉数量而采用模型间分歧的选择策略,使其无法反映真实部署中的幻觉频率。这意味着所有基于此数据集的性能估计都可能偏乐观。总之,这是一篇扎实、有用但不够“性感”的工作,适合发在系统或资源赛道,冲击顶会算法主会场有点勉强。
📌 核心摘要
本文介绍了HALAS,首个针对真实未处理语音(来自Earnings-22财报电话会议)的人工标注数据集,用于研究现代端到端自动语音识别(ASR)系统的幻觉问题。数据集包含七个先进ASR模型的预测结果及其对应的幻觉标注(包括跨度级别的标签)。作者对数据集进行了定性和定量分析,揭示了跨模型幻觉词汇的高度重叠性,并确认即使在字词错误率(WER)很低时幻觉也会发生。基于HALAS的基准测试表明,用作幻觉检测代理指标的字符级和语义级指标ROC-AUC最高达到81%,而当前最先进的检测方法F1分数仅为53.1%。论文旨在为ASR幻觉的检测与缓解提供首个非人工构造的、严格的基准。
🔗 开源详情
- 代码:https://github.com/DSP-AGH/HALAS/tree/main
- 模型权重:未提供专门的模型权重下载链接。论文说明使用Hugging Face或GitHub上的官方实现进行推理。
- 数据集:HALAS (Hallucination Annotations for Large-scale ASR Systems),获取链接:https://huggingface.co/datasets/MatBar99/HALAS
- Demo:论文中未提及
- 复现材料:论文指出,所有补充材料(模型提交哈希、推理参数、LLM评估的完整提示词)均可在代码仓库(https://github.com/DSP-AGH/HALAS/tree/main)中找到。
- 论文中引用的开源项目:
- Earnings 22 (E22) 数据集:https://huggingface.co/datasets/distil-whisper/earnings22
- Whisper (OpenAI):https://github.com/openai/whisper
- Crisper Whisper:https://github.com/assemblyai/crisper-whisper
- NVIDIA NeMo (包含Canary与Parakeet模型):https://github.com/NVIDIA/NeMo
- Whisper Normalizer (用于文本归一化):https://pypi.org/project/whisper-normalizer
- XGBoost (用于分类器训练):https://github.com/dmlc/xgboost
- Label Studio (用于数据标注平台):https://labelstud.io/
- Open ASR Leaderboard (模型排行榜):https://huggingface.co/spaces/srivastav/open-asr-leaderboard
- Jensen-Shannon Similarity:参考文献链接,未提供直接代码仓库。
- BERTScore:参考文献链接,未提供直接代码仓库。
- SeMaScore:参考文献链接,未提供直接代码仓库。
- GPT-2 Perplexity:基于GPT-2模型,未提供特定实现链接。
🏗️ 方法概述和架构
本文的核心方法是构建HALAS数据集并以此建立基准。方法分为数据集创建和基准测试两大部分。
- 数据集创建方法论
- 音频来源: 使用Earnings-22 (E22) 数据集,包含119小时来自27个国家说话者的英语财报电话会议录音,分割为57390个片段。
- ASR模型选择: 选取了7个在Open ASR Leaderboard上表现优异的SOTA模型:OpenAI Whisper large v3 (Wv3), large v3 Turbo (Wv3T), large v2 (Wv2),以及微调版本Crisper Whisper (CrW);NVIDIA NeMo的Canary-1B (Can), Canary-1B-Flash (CanF) 和 Parakeet-TDT v2 (Par)。所有模型均在E22上使用默认参数进行推理。
- 候选样本选择(基于模型间分歧): 为了最大化标注池中的幻觉比例,采用模型间分歧作为音频难度的代理指标。流程为:
- 预处理:从E22中剔除标记为“inaudible”和“foreign language”的文件。
- 消除循环干扰:移除各模型预测中重复的词或短语。
- 文本归一化:对所有预测使用BasicTextNormalizer进行归一化。
- 计算分歧度量:对每个音频片段,计算所有模型对之间预测的平均WER(使用一个模型的预测作为另一个的参考)。
- 候选选择:选择平均WER最高的片段进入标注流程。注意,循环消除和归一化仅用于度量计算,标注使用原始预测。
- 幻觉标注流程:
- 标注员: 10名付费专业标注员(英语B2+水平)。
- 标注定义: 幻觉被定义为“预测或其片段,与分析的音频信号内容没有语音对应关系”。
- 标注规则: 标注员必须仅基于预测与音频录音的对比进行标注,不得参考数据集提供的参考文本。
- 单样本标注步骤:
- 音频验证:播放并分析音频,排除无声、多人重叠说话或主要非英语的内容。
- 预测幻觉标注:对每个模型的预测,再次听音频并标记符合幻觉定义的词或短语,标签包括“Hallucination”(幻觉)、“Looping”(循环)和“Looping Hallucination”(循环幻觉)。
- 仲裁与质量控制: 每个文件由2名独立标注员处理,第三名仲裁员进行裁决。初始标注一致性高(Cohen’s kappa = 0.87)。仲裁员还会检查并修正E22提供的参考文本,将其中14%标记为无法清晰辨识的语句。
- 基准测试
- 数据集划分: 将标注数据分为训练集和测试集,划分依据是源会议并分层考虑平均WER、幻觉率和时长。测试集被过滤为仅包含超过1.0秒且至少三个词的音频。训练集幻觉率为33.6%,测试集为22.6%。
- 代理指标检测基准: 评估7种文本代理指标(WER, CER, Insertion Rate, Length Ratio, BERTScore, SeMaScore, GPT-2 Perplexity)在检测所有7个模型预测中的幻觉时的性能,通过计算每个指标的ROC-AUC来衡量。
- SOTA方法检测基准(针对Whisper large v3):
- 基于参考文本的LLM方法: 使用GPT-4o mini和Gemini 2.0 Flash将预测与人工修正后的参考文本进行比较。
- 基于解码器嵌入的分类方法: 复现并扩展了[glazer2025transcriptionmechanisticinterpretabilityasr]的方法。将Whisper large v3解码器在生成
<|endoftranscript|>token后的特定层(如第21层)的嵌入向量输入逻辑回归分类器(DE 21)。本文提出的改进是将多个层(第2, 13, 23层)的嵌入拼接作为输入(DE 2,13,23)。分类器在HALAS训练集上训练。
- 跨领域泛化评估: 将DE检测器在HALAS上训练,然后在来自[baranski2025investigationwhisperasrhallucinations]的非语音增强数据集(将任何相对于参考文本的插入视为幻觉)上进行测试。


💡 核心创新点
- 首个真实语音ASR幻觉人工标注数据集: HALAS是第一个公开的、基于真实未处理语音(财报电话)、包含跨度级别幻觉标注的数据集,填补了现有评估多依赖非语音或人工损坏音频的空白。
- 揭示SOTA ASR模型在真实数据上的幻觉普遍性: 通过对七个模型的系统性分析,证实了所有模型在真实数据上都会产生幻觉,且幻觉词汇分布高度重叠(集中在少数常见短语),这是一个重要的实证发现。
- 建立了具有挑战性的基准: 利用HALAS作为基准,揭示了即使在低WER下幻觉仍会发生,并证明当前SOTA检测方法在真实语音上表现有限(F1仅53.1%),为未来研究设立了严格的评估标准。
- 提出改进的幻觉检测器架构: 提出了一种基于多层解码器嵌入的幻觉检测器(DE 2,13,23),相较于单层基线在F1分数上有所提升。
📊 实验结果
论文的核心实验结果如下表所示。
表1:HALAS数据集划分概览
| Split | #文件 | P5P_{5} [s] | P95P_{95} [s] | HR [%] |
|---|---|---|---|---|
| train | 2866 | 0.26 | 8.02 | 33.6 |
| test | 745 | 1.22 | 12.15 | 22.6 |
表2:各模型标注结果汇总(关键指标)
| 模型 | Wv2 | Wv3 | Wv3T | CrW | Can | CanF | Par | 平均 |
|---|---|---|---|---|---|---|---|---|
| 幻觉率 [%] | 43.8 | 23.8 | 29.4 | 21.4 | 33.6 | 30.4 | 33.7 | 30.9 |
| 循环率 [%] | 1.3 | 0.5 | 0.9 | 0.6 | 0.9 | 3.1 | 0.2 | 1.1 |
| WER [%] | 74.16 | 31.46 | 37.33 | 41.10 | 48.48 | 110.5 | 42.91 | 55.13 |
| Top 10/30 短语占比 [%] | 53/68 | 59/79 | 66/84 | 48/75 | 44/67 | 34/58 | 83/93 | 55/75 |
- 幻觉普遍性与分布: 所有模型的幻觉率在21.4%至43.8%之间。平均55%的幻觉对应于模型最常见的10个短语,扩展到30个短语覆盖75%。这种分布模式在所有模型中一致,其中Par最为集中(Top 30覆盖93%)。
- 幻觉与WER/BERTScore的关系: WER分布显示,干净和幻觉化的语段存在很大重叠,表明WER不能可靠地区分幻觉。幻觉可出现在低至6.25% WER的情况下。BERTScore分布对幻觉有可见的左移,但在0.80-0.95区间仍有大量重叠。
- 幻觉严重性(由GPT-4o mini评估): 不同架构间差异显著。Par, CrW, Wv3主要产生轻微插入,但仍有超过25%的严重幻觉。CanF, Can, Wv2的严重错误率更高(>38%)。中等严重性幻觉在所有模型中最少。
表3:在Wv3 HALAS测试集上评估的所有检测器性能 [%]
| Detector | Acc. | Prec. | Rec. | F1 |
|---|---|---|---|---|
| GPT-4o mini | 71.7 | 30.1 | 62.6 | 40.7 |
| Gemini 2.0 Flash | 84.5 | 50.0 | 35.7 | 41.6 |
| DE 21 | 87.1 | 57.8 | 49.1 | 53.1 |
| OTHER | 83.3 | 47.6 | 60.9 | 53.4 |
| ALL | 83.7 | 48.7 | 64.3 | 55.4 |
| DE 2,13,23 | 86.4 | 53.9 | 58.5 | 56.1 |
- SOTA方法基准: 在针对Whisper large v3的评估中,无参考的解码器嵌入检测器(DE)性能显著优于使用参考文本的LLM方法。多层嵌入检测器(DE 2,13,23)在F1分数(56.1%)上优于单层基线(53.1%)。令人惊讶的是,仅使用代理指标训练且无目标模型数据的分类器(OTHER)性能(F1 53.4%)也与单层DE基线相当。
- 跨领域泛化: 在HALAS上训练的DE检测器,在非语音增强数据集上测试时获得了更高的F1分数(DE 21: 72.4%, DE 2,13,23: 77.3%),表明HALAS的挑战性使其能够用于训练泛化能力较强的检测器。


⚖️ 评分理由
- 创新性 (1.5/2):问题定义清晰,贡献了一个重要且及时的资源(首个真实语音ASR幻觉人工标注数据集)。然而,核心贡献是数据集而非算法、模型或理论创新。多层解码器嵌入检测器是对现有方法的扩展,原创性有限。
- 技术严谨性 (1.2/1.5):数据集构建流程描述严谨,包括清晰的候选选择标准、标注流程和质量控制(Cohen‘s kappa)。分析使用了恰当的统计方法(Jensen-Shannon相似性,Fleiss‘s kappa)。不足之处在于:严重性评估仅依赖一个LLM模型,未进行交叉验证;参考文本在标注与指标计算中的角色未完全厘清。
- 实验充分性 (1.5/2):实验设计合理,包括了数据集的定量/定性分析、代理指标基准和SOTA方法基准。然而,SOTA检测方法的评估仅覆盖了七个模型中的一个(Whisper large v3),削弱了结论的普适性。此外,未探讨将代理指标或DE方法应用于其他模型时的性能。
- 清晰度 (0.8/1):论文结构清晰,图表丰富。但存在部分表述问题:如“Figure”与“Fig.”引用不一致;对“为何选择Earnings-22数据集”以及“幻觉词汇高度重叠”的深层原因讨论不足。方法论部分关于参考文本角色的阐述可以更清晰。
- 影响力 (1.2/1.5):为ASR社区提供了急需的、评估幻觉检测与缓解方法的真实基准,具有明确的实用价值。然而,数据集因采样偏差(基于模型间分歧)导致其幻觉率不能反映真实部署频率,这限制了基于此数据集训练的模型在真实场景中的性能估计。
- 开源 (1.0/1.5):提供了完整的代码仓库(含补充材料)、数据集(HuggingFace)和引用的开源项目链接。但未提供具体的模型权重下载链接(论文说明使用Hugging Face/GitHub实现),因此has_model为“否”。
- 可复现性 (0.9/1):开源详情详尽,包括提交哈希、推理参数、标注平台(Label Studio)和LLM提示词。训练/测试集划分公开。然而,完整的复现依赖外部模型实现和算力,存在一定门槛。
- 工程/实践价值 (0.7/1):数据集本身和基准测试对工程实践有直接指导意义,揭示了当前检测方法在真实语音上的不足。但论文在工程细节(如部署考量、效率分析)上着墨较少。
🚨 局限与问题
- 数据集代表性偏差: 论文承认,为最大化幻觉而基于模型间分歧选择样本,导致HALAS不能反映真实部署中幻觉的自然频率。这意味着:(a) 基于此数据集评估的检测方法性能可能偏乐观;(b) 在HALAS上训练的模型可能无法正确估计现实中的幻觉率。这是一个根本性限制。
- 基准测试覆盖不全: SOTA检测方法仅在一个模型(Whisper large v3)上进行了深入评估。对于其他六个模型,仅通过代理指标(图5)和跨模型分类器(OTHER, ALL)进行了间接评估。这使得结论“当前SOTA方法F1仅为53.1%”的普适性存疑。
- 严重性评估的可靠性: 幻觉严重性分类完全依赖GPT-4o mini一个LLM模型。虽然进行了多次评估和投票(Fleiss‘s kappa >0.79),但未与其他人类专家或不同的LLM进行对比,其偏差和一致性无法完全保证。
- 方法深度有限: 核心方法贡献(数据集)的价值大于技术创新。多层解码器嵌入检测器(DE 2,13,23)的提升幅度有限(F1从53.1%到56.1%),且层选择(2,13,23)的依据未充分解释(可能是经验性或简单网格搜索)。
- 分析深度不足: 对“幻觉词汇高度重叠”这一关键发现的分析停留在描述性统计(如列出高频短语),未深入探究其成因(是否与模型训练数据、语言模型特性或特定声学环境相关?)。
- 参考文本角色模糊: 论文要求标注员“不基于参考文本”进行标注以定义幻��,但同时又使用人工修正后的参考文本作为LLM检测器(表3)的输入。这两种用途的可靠性和有效性差异未被充分讨论。
📷 论文图片
