Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India
📄 Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India #语音识别 #模型评估 #多语言 #低资源 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kaushal Bhogale (印度马德拉斯理工学院,计算机科学与工程系,cs22d006@cse.iitm.ac.in) 通讯作者:Mitesh M. Khapra (印度马德拉斯理工学院,计算机科学与工程系)(推断:作为资深作者和项目主导者) 其他作者: Manas Dhir, Amritansh Walecha, Manmeet Kaur, Vanshika Chhabra, Aaditya Pareek, Hanuman Sidh, Sagar Jain, Bhaskar Singh, Utkarsh Singh, Tahir Javed, Shobhit Banga (印度马德拉斯理工学院,计算机科学与工程系) (部分作者可能同时隶属 Josh Talks, India,但论文中未明确个人与机构的对应关系,此处统一列出) 💡 毒舌点评 亮点:这论文像给印度ASR领域做了一次彻底的“体检”,把现有模型在真实世界(电话、方言、乡村)的“体面”扒得干干净净,用数据和地图说话,指出了“高WER重灾区”和“公平性幻觉”,堪称一份犀利的行业诊断报告。 槽点:最核心的“体检报告”(数据)自己藏着不给看,只给看化验单(结果),让同行想复现、想基于此深入研究都无从下手,这“闭源”操作在学术圈属实有点“不讲武德”。 🔗 开源详情 代码:论文中未提及开源评估代码或工具。 模型权重:论文评估的模型包括商业API和开源模型,但基准本身不涉及新模型训练。 数据集:明确声明为闭源基准(closed source benchmark)。数据不公开,仅提供详细的构建方法和评估结果。 预训练权重:不适用。 在线Demo:未提及。 引用的开源项目:论文提到了依赖的模型和工具,如Whisper, Indic Conformer, OmniASR, Meta MMS, SpeechBrain VoxLingua107, DNSMOS, WebRTC VAD等。 📌 核心摘要 这篇论文旨在解决现有印度语言语音识别(Indic ASR)基准不反映真实场景、评估方法不公平的核心问题。为此,作者构建了“Voice of India”大规模基准,其数据源自3.6万名说话者的非脚本化电话对话,覆盖15种主要印度语言和139个地区集群,总计536小时。关键创新在于采用了考虑拼写变体的“正字法知情词错率”(OIWER)评估指标,并构建了“方言格”(Lattice)来容纳合理的转录变体。通过在14个先进ASR系统(包括商业API和开源模型)上的评估,论文揭示了几个关键发现:1)即使最佳模型在多种语言上也未达到20%的实用WER阈值;2)性能存在显著的地理偏差,印度北部“印地语带”和都市区表现远优于南部和语言多样地区;3)现有公开基准(如FLEURS)会高估模型性能;4)模型在女性语音上略有优势,但对年轻说话者和特定方言(如Bhojpuri)表现不佳。该基准为开发更鲁棒、公平的印度语音识别系统提供了关键的评估工具和明确的改进方向。 ...