UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations
📄 UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations #语音识别 #数据集 #多语言 #低资源 #数据清洗 ✅ 7/10 | 前25% | #语音识别 | #数据集 | #多语言 #低资源 | arxiv 学术质量 5.8/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Attia Nafees ul Haq (Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University) 通讯作者:Attia Nafees ul Haq, Lei Xie (邮箱:attianafees@mail.nwpu.edu.cn, lxie@nwpu.edu.cn) 作者列表:Attia Nafees ul Haq (ASLP@NPU, Northwestern Polytechnical University), Zeyu Zhu (ASLP@NPU, Northwestern Polytechnical University), Jingbin Hu (ASLP@NPU, Northwestern Polytechnical University), ChunJiang He (ASLP@NPU, Northwestern Polytechnical University), Lei Xie (ASLP@NPU, Northwestern Polytechnical University) 💡 毒舌点评 亮点:针对乌尔都语这一“高人口、低资源”语言,首次系统构建了包含156小时音频、12维副语言标注的大规模开放语料库,有效解决了RTL脚本和代码切换两大处理难题,为相关研究提供了关键基础设施。短板:论文核心贡献是数据集及数据整理流水线,但对流水线核心组件(尤其是基于Gemini的提示工程)的细节描述和消融分析不足,更像一份详尽的工程报告。更关键的是,所有转录和标注质量都深度绑定一个闭源商业模型(Gemini 2.5 Pro),其长期可及性、结果一致性和完全可复现性存疑,这构成了方法论上的根本性弱点。 ...