📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

#语音识别 #数据集 #基准测试

8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5

🔥 8.4/10 | 前50% | #语音识别 | #数据集 | #基准测试 | arxiv

👥 作者与机构

Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland

💡 毒舌点评

这篇论文很“实在”，做了最费力不讨好的活：标注数据。贡献是实打实的：第一个针对真实自然语音、来自多个SOTA模型的幻觉人工标注数据集。构建流程清晰，分析也全面。然而，创新性天花板明显——这就是个高质量数据集论文，算法和模型上的贡献薄弱。多层解码器嵌入检测器（DE 2,13,23）算是一个小改进，但离“突破”还远。基准测试也很有意思，证明了问题的难度，但只在Whisper large v3一个模型上深入评估了SOTA检测方法，对于号称要评估七个模型的数据集来说，这深度不够。最大的“软肋”在于数据集本身：为了保证幻觉数量而采用模型间分歧的选择策略，使其无法反映真实部署中的幻觉频率。这意味着所有基于此数据集的性能估计都可能偏乐观。总之，这是一篇扎实、有用但不够“性感”的工作，适合发在系统或资源赛道，冲击顶会算法主会场有点勉强。

📌 核心摘要

本文介绍了HALAS，首个针对真实未处理语音（来自Earnings-22财报电话会议）的人工标注数据集，用于研究现代端到端自动语音识别（ASR）系统的幻觉问题。数据集包含七个先进ASR模型的预测结果及其对应的幻觉标注（包括跨度级别的标签）。作者对数据集进行了定性和定量分析，揭示了跨模型幻觉词汇的高度重叠性，并确认即使在字词错误率（WER）很低时幻觉也会发生。基于HALAS的基准测试表明，用作幻觉检测代理指标的字符级和语义级指标ROC-AUC最高达到81%，而当前最先进的检测方法F1分数仅为53.1%。论文旨在为ASR幻觉的检测与缓解提供首个非人工构造的、严格的基准。

🔗 开源详情

代码：https://github.com/DSP-AGH/HALAS/tree/main
模型权重：未提供专门的模型权重下载链接。论文说明使用Hugging Face或GitHub上的官方实现进行推理。
数据集：HALAS (Hallucination Annotations for Large-scale ASR Systems)，获取链接：https://huggingface.co/datasets/MatBar99/HALAS
Demo：论文中未提及
复现材料：论文指出，所有补充材料（模型提交哈希、推理参数、LLM评估的完整提示词）均可在代码仓库（https://github.com/DSP-AGH/HALAS/tree/main）中找到。
论文中引用的开源项目：
- Earnings 22 (E22) 数据集：https://huggingface.co/datasets/distil-whisper/earnings22
- Whisper (OpenAI)：https://github.com/openai/whisper
- Crisper Whisper：https://github.com/assemblyai/crisper-whisper
- NVIDIA NeMo (包含Canary与Parakeet模型)：https://github.com/NVIDIA/NeMo
- Whisper Normalizer (用于文本归一化)：https://pypi.org/project/whisper-normalizer
- XGBoost (用于分类器训练)：https://github.com/dmlc/xgboost
- Label Studio (用于数据标注平台)：https://labelstud.io/
- Open ASR Leaderboard (模型排行榜)：https://huggingface.co/spaces/srivastav/open-asr-leaderboard
- Jensen-Shannon Similarity：参考文献链接，未提供直接代码仓库。
- BERTScore：参考文献链接，未提供直接代码仓库。
- SeMaScore：参考文献链接，未提供直接代码仓库。
- GPT-2 Perplexity：基于GPT-2模型，未提供特定实现链接。

🏗️ 方法概述和架构

本文的核心方法是构建HALAS数据集并以此建立基准。方法分为数据集创建和基准测试两大部分。

数据集创建方法论

音频来源：使用Earnings-22 (E22) 数据集，包含119小时来自27个国家说话者的英语财报电话会议录音，分割为57390个片段。
ASR模型选择：选取了7个在Open ASR Leaderboard上表现优异的SOTA模型：OpenAI Whisper large v3 (Wv3), large v3 Turbo (Wv3T), large v2 (Wv2)，以及微调版本Crisper Whisper (CrW)；NVIDIA NeMo的Canary-1B (Can), Canary-1B-Flash (CanF) 和 Parakeet-TDT v2 (Par)。所有模型均在E22上使用默认参数进行推理。
候选样本选择（基于模型间分歧）：为了最大化标注池中的幻觉比例，采用模型间分歧作为音频难度的代理指标。流程为：
1. 预处理：从E22中剔除标记为“inaudible”和“foreign language”的文件。
2. 消除循环干扰：移除各模型预测中重复的词或短语。
3. 文本归一化：对所有预测使用BasicTextNormalizer进行归一化。
4. 计算分歧度量：对每个音频片段，计算所有模型对之间预测的平均WER（使用一个模型的预测作为另一个的参考）。
5. 候选选择：选择平均WER最高的片段进入标注流程。注意，循环消除和归一化仅用于度量计算，标注使用原始预测。
幻觉标注流程：
1. 标注员： 10名付费专业标注员（英语B2+水平）。
2. 标注定义：幻觉被定义为“预测或其片段，与分析的音频信号内容没有语音对应关系”。
3. 标注规则：标注员必须仅基于预测与音频录音的对比进行标注，不得参考数据集提供的参考文本。
4. 单样本标注步骤：
  - 音频验证：播放并分析音频，排除无声、多人重叠说话或主要非英语的内容。
  - 预测幻觉标注：对每个模型的预测，再次听音频并标记符合幻觉定义的词或短语，标签包括“Hallucination”（幻觉）、“Looping”（循环）和“Looping Hallucination”（循环幻觉）。
5. 仲裁与质量控制：每个文件由2名独立标注员处理，第三名仲裁员进行裁决。初始标注一致性高（Cohen’s kappa = 0.87）。仲裁员还会检查并修正E22提供的参考文本，将其中14%标记为无法清晰辨识的语句。

基准测试

数据集划分：将标注数据分为训练集和测试集，划分依据是源会议并分层考虑平均WER、幻觉率和时长。测试集被过滤为仅包含超过1.0秒且至少三个词的音频。训练集幻觉率为33.6%，测试集为22.6%。
代理指标检测基准：评估7种文本代理指标（WER, CER, Insertion Rate, Length Ratio, BERTScore, SeMaScore, GPT-2 Perplexity）在检测所有7个模型预测中的幻觉时的性能，通过计算每个指标的ROC-AUC来衡量。
SOTA方法检测基准（针对Whisper large v3）：
- 基于参考文本的LLM方法：使用GPT-4o mini和Gemini 2.0 Flash将预测与人工修正后的参考文本进行比较。
- 基于解码器嵌入的分类方法：复现并扩展了[glazer2025transcriptionmechanisticinterpretabilityasr]的方法。将Whisper large v3解码器在生成<|endoftranscript|> token后的特定层（如第21层）的嵌入向量输入逻辑回归分类器（DE 21）。本文提出的改进是将多个层（第2, 13, 23层）的嵌入拼接作为输入（DE 2,13,23）。分类器在HALAS训练集上训练。
跨领域泛化评估：将DE检测器在HALAS上训练，然后在来自[baranski2025investigationwhisperasrhallucinations]的非语音增强数据集（将任何相对于参考文本的插入视为幻觉）上进行测试。

💡 核心创新点

首个真实语音ASR幻觉人工标注数据集： HALAS是第一个公开的、基于真实未处理语音（财报电话）、包含跨度级别幻觉标注的数据集，填补了现有评估多依赖非语音或人工损坏音频的空白。
揭示SOTA ASR模型在真实数据上的幻觉普遍性：通过对七个模型的系统性分析，证实了所有模型在真实数据上都会产生幻觉，且幻觉词汇分布高度重叠（集中在少数常见短语），这是一个重要的实证发现。
建立了具有挑战性的基准：利用HALAS作为基准，揭示了即使在低WER下幻觉仍会发生，并证明当前SOTA检测方法在真实语音上表现有限（F1仅53.1%），为未来研究设立了严格的评估标准。
提出改进的幻觉检测器架构：提出了一种基于多层解码器嵌入的幻觉检测器（DE 2,13,23），相较于单层基线在F1分数上有所提升。

📊 实验结果

论文的核心实验结果如下表所示。

表1：HALAS数据集划分概览

Split	#文件	P5P_{5} [s]	P95P_{95} [s]	HR [%]
train	2866	0.26	8.02	33.6
test	745	1.22	12.15	22.6

表2：各模型标注结果汇总（关键指标）

模型	Wv2	Wv3	Wv3T	CrW	Can	CanF	Par	平均
幻觉率 [%]	43.8	23.8	29.4	21.4	33.6	30.4	33.7	30.9
循环率 [%]	1.3	0.5	0.9	0.6	0.9	3.1	0.2	1.1
WER [%]	74.16	31.46	37.33	41.10	48.48	110.5	42.91	55.13
Top 10/30 短语占比 [%]	53/68	59/79	66/84	48/75	44/67	34/58	83/93	55/75

幻觉普遍性与分布：所有模型的幻觉率在21.4%至43.8%之间。平均55%的幻觉对应于模型最常见的10个短语，扩展到30个短语覆盖75%。这种分布模式在所有模型中一致，其中Par最为集中（Top 30覆盖93%）。
幻觉与WER/BERTScore的关系： WER分布显示，干净和幻觉化的语段存在很大重叠，表明WER不能可靠地区分幻觉。幻觉可出现在低至6.25% WER的情况下。BERTScore分布对幻觉有可见的左移，但在0.80-0.95区间仍有大量重叠。
幻觉严重性（由GPT-4o mini评估）：不同架构间差异显著。Par, CrW, Wv3主要产生轻微插入，但仍有超过25%的严重幻觉。CanF, Can, Wv2的严重错误率更高（>38%）。中等严重性幻觉在所有模型中最少。

表3：在Wv3 HALAS测试集上评估的所有检测器性能 [%]

Detector	Acc.	Prec.	Rec.	F1
GPT-4o mini	71.7	30.1	62.6	40.7
Gemini 2.0 Flash	84.5	50.0	35.7	41.6
DE 21	87.1	57.8	49.1	53.1
OTHER	83.3	47.6	60.9	53.4
ALL	83.7	48.7	64.3	55.4
DE 2,13,23	86.4	53.9	58.5	56.1

SOTA方法基准：在针对Whisper large v3的评估中，无参考的解码器嵌入检测器（DE）性能显著优于使用参考文本的LLM方法。多层嵌入检测器（DE 2,13,23）在F1分数（56.1%）上优于单层基线（53.1%）。令人惊讶的是，仅使用代理指标训练且无目标模型数据的分类器（OTHER）性能（F1 53.4%）也与单层DE基线相当。
跨领域泛化：在HALAS上训练的DE检测器，在非语音增强数据集上测试时获得了更高的F1分数（DE 21: 72.4%， DE 2,13,23: 77.3%），表明HALAS的挑战性使其能够用于训练泛化能力较强的检测器。

⚖️ 评分理由

创新性 (1.5/2)：问题定义清晰，贡献了一个重要且及时的资源（首个真实语音ASR幻觉人工标注数据集）。然而，核心贡献是数据集而非算法、模型或理论创新。多层解码器嵌入检测器是对现有方法的扩展，原创性有限。
技术严谨性 (1.2/1.5)：数据集构建流程描述严谨，包括清晰的候选选择标准、标注流程和质量控制（Cohen‘s kappa）。分析使用了恰当的统计方法（Jensen-Shannon相似性，Fleiss‘s kappa）。不足之处在于：严重性评估仅依赖一个LLM模型，未进行交叉验证；参考文本在标注与指标计算中的角色未完全厘清。
实验充分性 (1.5/2)：实验设计合理，包括了数据集的定量/定性分析、代理指标基准和SOTA方法基准。然而，SOTA检测方法的评估仅覆盖了七个模型中的一个（Whisper large v3），削弱了结论的普适性。此外，未探讨将代理指标或DE方法应用于其他模型时的性能。
清晰度 (0.8/1)：论文结构清晰，图表丰富。但存在部分表述问题：如“Figure”与“Fig.”引用不一致；对“为何选择Earnings-22数据集”以及“幻觉词汇高度重叠”的深层原因讨论不足。方法论部分关于参考文本角色的阐述可以更清晰。
影响力 (1.2/1.5)：为ASR社区提供了急需的、评估幻觉检测与缓解方法的真实基准，具有明确的实用价值。然而，数据集因采样偏差（基于模型间分歧）导致其幻觉率不能反映真实部署频率，这限制了基于此数据集训练的模型在真实场景中的性能估计。
开源 (1.0/1.5)：提供了完整的代码仓库（含补充材料）、数据集（HuggingFace）和引用的开源项目链接。但未提供具体的模型权重下载链接（论文说明使用Hugging Face/GitHub实现），因此has_model为“否”。
可复现性 (0.9/1)：开源详情详尽，包括提交哈希、推理参数、标注平台（Label Studio）和LLM提示词。训练/测试集划分公开。然而，完整的复现依赖外部模型实现和算力，存在一定门槛。
工程/实践价值 (0.7/1)：数据集本身和基准测试对工程实践有直接指导意义，揭示了当前检测方法在真实语音上的不足。但论文在工程细节（如部署考量、效率分析）上着墨较少。

🚨 局限与问题

数据集代表性偏差：论文承认，为最大化幻觉而基于模型间分歧选择样本，导致HALAS不能反映真实部署中幻觉的自然频率。这意味着：(a) 基于此数据集评估的检测方法性能可能偏乐观；(b) 在HALAS上训练的模型可能无法正确估计现实中的幻觉率。这是一个根本性限制。
基准测试覆盖不全： SOTA检测方法仅在一个模型（Whisper large v3）上进行了深入评估。对于其他六个模型，仅通过代理指标（图5）和跨模型分类器（OTHER, ALL）进行了间接评估。这使得结论“当前SOTA方法F1仅为53.1%”的普适性存疑。
严重性评估的可靠性：幻觉严重性分类完全依赖GPT-4o mini一个LLM模型。虽然进行了多次评估和投票（Fleiss‘s kappa >0.79），但未与其他人类专家或不同的LLM进行对比，其偏差和一致性无法完全保证。
方法深度有限：核心方法贡献（数据集）的价值大于技术创新。多层解码器嵌入检测器（DE 2,13,23）的提升幅度有限（F1从53.1%到56.1%），且层选择（2,13,23）的依据未充分解释（可能是经验性或简单网格搜索）。
分析深度不足：对“幻觉词汇高度重叠”这一关键发现的分析停留在描述性统计（如列出高频短语），未深入探究其成因（是否与模型训练数据、语言模型特性或特定声学环境相关？）。
参考文本角色模糊：论文要求标注员“不基于参考文本”进行标注以定义幻��，但同时又使用人工修正后的参考文本作为LLM检测器（表3）的输入。这两种用途的可靠性和有效性差异未被充分讨论。

📷 论文图片

← 返回 2026-06-23 语音/音乐/音频论文速递

📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文