语音识别，基准测试，低资源，多语言

📄 BlasBench: An Open Benchmark for Irish Speech Recognition #语音识别，#基准测试，#低资源，#多语言 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者：Jyoutir Raj（独立研究者）通讯作者：John Conway（独立研究者）其他作者：无（注：论文中作者均标注为“Independent Researcher”，机构信息未明确给出，根据联系邮箱推断为独立研究者。） 💡 毒舌点评这篇论文像个严谨的“基准测试工人”，默默给爱尔兰语ASR社区搭好了可复现的评估脚手架，并顺手揭露了Whisper在爱尔兰语上“张嘴就来”的尴尬事实。亮点是工具和数据全开源、分析一针见血；槽点是它本质是个评估框架，离“解决”爱尔兰语ASR问题还差得远，更像是在说“看，问题有多严重，我给你们标出来了”。 🔗 开源详情代码：完全开源。评估工具（harness）和爱尔兰语规范化器发布在GitHub：github.com/jyoutir/blasbench。模型权重：论文本身不发布新模型，但评估的所有开源模型（如wav2vec2微调版、MMS、omniASR）均来自HuggingFace等公共平台，论文中给出了具体模型标识。数据集：评估使用的数据是公开的Common Voice 25.0和FLEURS的特定切片。论文发布了每个模型在这些切片上的逐句预测结果（作为v0.1.0发布），这意味着研究者无需重新运行模型即可与BlasBench结果对比。预训练权重：不适用。在线 Demo：论文未提及。引用的开源项目：论文依赖并评估了多个开源项目，包括OpenAI Whisper、Meta的MMS、Omnilingual ASR、以及多个HuggingFace社区模型。 📌 核心摘要这篇论文旨在解决爱尔兰语语音识别（ASR）领域缺乏统一、可靠评估标准的问题。现有工作或基准要么忽略爱尔兰语特有的文本规范（如保留fada变音符号、初始辅音突变），要么在不同数据集和归一化方法下进行，导致结果无法比较。为此，作者提出了BlasBench，一个开放的评估框架，其核心是一个爱尔兰语感知的文本规范化工具，确保评分时保留语言学意义。通过该框架，作者在Common Voice和FLEURS两个爱尔兰语数据集上系统评估了12个涵盖不同架构（Whisper、wav2vec2 CTC、多语言大模型、商业API）的系统。主要发现包括：1）所有测试的Whisper变体均产生超过100%的词错率（WER），表现为严重的插入型幻觉；2）仅在Common Voice上评估会高估模型性能，模型在跨数据集（从Common Voice到FLEURS）时表现出显著的泛化差距；3）当前最佳开源模型（Omnilingual ASR 7B）与商业系统（Azure）及专用系统（ABAIR）之间仍有差距，但主要瓶颈在于数据而非架构。BlasBench通过完全开源工具和数据，为爱尔兰语ASR研究提供了可复现的评估基础。 🏗️ 模型架构本论文不提出新的模型架构，而是构建一个评估现有模型的框架。因此，其“架构”指的是评估流程。整体输入输出流程：输入：16kHz的爱尔兰语音频。模型推理：音频被送入待评估的ASR模型（如Whisper, wav2vec2, Azure API），模型输出原始文本（hypothesis）。爱尔兰语规范化：将模型输出的原始文本和数据集提供的参考文本（reference）同时送入爱尔兰语感知的规范化器。该规范化器是框架的核心组件，其内部逻辑为：首先应用NFC规范化以确保元音上的尖角符（fada）不被移除；然后保留文本中的初始辅音突变（lenition）和鼻化（eclipsis）标记，这些是语法的关键信息。评分：对规范化后的参考文本和假设文本计算全局词错率（WER）和字符错率（CER），通过汇总所有句子的替换、插入、删除错误总数除以参考文本总词数得到。置信区间：通过自助法（bootstrap）重采样（1000次，固定种子42）计算WER的95%置信区间。关键设计选择：采用全局聚合（corpus-level）WER计算而非句子平均，以避免短句偏差；提供逐句预测结果和详细元数据，确保评估完全可审计和可复现。 💡 核心创新点爱尔兰语感知的文本规范化工具：是什么：一个首次发布的、独立的开源工具，专门用于爱尔兰语ASR评估，在文本规范化过程中保留fada、初始辅音突变和鼻化等语言学关键特征。之前的方法：通用多语言规范化器会剥离这些特征，导致错误率被人为扭曲。如何解决问题：通过定制的NFC优先处理和保留特定语法标记的规则，确保评分反映真实的识别错误。效果：为爱尔兰语ASR提供了可靠、可复现的评分基础。跨数据集、跨架构的标准化评估框架：是什么：一个包含双数据集（Common Voice, FLEURS）、多模型（12个系统，4个家族）、统一评估流程的开放基准。之前的方法：各研究使用不同数据版本、不同规范化器、不同模型子集，结果无法比较。如何解决问题：固定评估切片、统一规范化、发布所有预测结果，使任何新模型都能直接对比。效果：首次在相同条件下量化了不同技术路线的性能差距和泛化能力。揭示Whisper在爱尔兰语上的灾难性失败与幻觉问题：是什么：通过实验明确证明所有测试的Whisper变体在爱尔兰语上WER超过100%，错误主要由大量与输入无关的插入（如输出英语、威尔士语或重复循环）构成。之前的方法：可能仅报告高WER，未系统分析错误类型。如何解决问题：通过详细的错误类型分解（S/I/D）和输出样例分析（见附录C），揭示这是解码器“幻觉”而非简单的声学误识别。效果：警示社区不能盲目依赖大型多语言模型，并指出了模型语言偏好先验过强的严重问题。量化单数据集评估的误导性与泛化差距：是什么：通过对比模型在Common Voice（分布内）和FLEURS（分布外）上的表现，发现仅在Common Voice上微调的模型在FLEURS上性能暴跌33-43个百分点，而大规模多语言预训练模型仅下降7-10点。之前的方法：多数工作仅在单一数据集上报告结果。如何解决问题：强制使用双数据集评估，直接暴露模型泛化能力的差异。效果：证明了“Common Voice分数高估实际部署性能”，强调了跨数据集评估的必要性。 🔬 细节详述评估数据集： Common Voice 25.0 ga-IE：874条社区录制的朗读语音测试语句。 FLEURS ga-IE：842条专业录制的母语者朗读语音测试语句。两个数据集的评估切片已固定并发布。评估流程细节：规范化：核心是爱尔兰语规范化器。流程为：原始文本 -> NFC规范化（保留fada） -> 保留初始辅音突变和鼻化标记 -> 小写化、去除标点、合并空白（通用步骤）。评分：使用全局WER/CER。公式：WER = (S + I + D) / N_ref，其中S, I, D分别为总替换、插入、删除错误数，N_ref为参考文本总词数。置信区间：自助法，1000次重采样，种子42。被评估系统详情： Whisper系列：medium (769M), large-v2 (1.5B), large-v3 (1.5B), large-v3-turbo (809M)。均为零样本（未声称包含爱尔兰语训练数据）。 wav2vec2 CTC系列：4个在Common Voice上微调的社区模型（如Aditya3107/xls-r-1b, jimregan/xlsr-53等），参数量315M-1B。 Meta多语言系列：MMS-1B-All (1107语言)，Omnilingual ASR (omniASR) 300M和7B参数版本（覆盖1600+语言）。商业系统：Microsoft Azure Speech Services (ga-IE locale)。运行环境：开源模型在单张NVIDIA H100 80GB SXM上运行，约6 GPU小时。Azure通过API调用。 📊 实验结果主要指标对比（Common Voice ga-IE）： ...