"This Wasn't Made for Me": Recentering User Experience and Emotional Impact in the Evaluation of ASR Bias
📄 “This Wasn’t Made for Me”: Recentering User Experience and Emotional Impact in the Evaluation of ASR Bias #语音识别 #模型评估 #鲁棒性 #多语言 ✅ 7.0/10 | 前50% | #语音识别 | #模型评估 | #鲁棒性 #多语言 | arxiv 学术质量 5.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siyu Liang(论文中未提及所属机构) 通讯作者:论文中未说明 作者列表:Siyu Liang(未说明)、Alicia Beckford Wassink(未说明) 💡 毒舌点评 本文最大的亮点是将ASR偏见研究从冰冷的错误率数字转向了活生生的人类体验,深刻揭示了技术失败带来的“隐形劳动”和心理伤害,视角极具人文关怀和社会价值。但其短板也显而易见:作为一篇“评估”论文,它完全依赖定性的用户研究,缺乏任何定量的、可复现的基准测试或模型对比实验,使得“评估”本身难以被标准化和扩展。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:论文中未提及训练细节、配置、检查点等。用户研究的问卷或访谈提纲等材料也未在摘要中说明。 论文中引用的开源项目:摘要中未提及。 总结:论文中未提及任何开源计划或资源。 📌 核心摘要 要解决什么问题:现有自动语音识别(ASR)偏见研究主要关注对代表性不足方言的错误率报告,忽视了系统失败对用户实际生活体验、情感反应和心理负担的深层影响。 方法核心是什么:在美国四个代表不同英语方言社区的地点(亚特兰大、墨西哥湾沿岸、迈阿密海滩、图森)开展用户体验研究,通过开放式叙事进行定性分析。 与已有方法相比新在哪里:将评估维度从单纯的“准确性”扩展到“用户体验”和“情感影响”,首次系统性地量化了用户为使失败系统运作而付出的“隐形劳动”(如语码转换、过度发音、情绪管理)和内化的“不足感”。 主要实验结果如何:研究发现,大多数参与者认为技术未考虑其文化背景,需不断调整才能使用基本功能。尽管如此,他们仍对ASR性能抱有高期望并愿意贡献改进。定性分析揭示了深层代价:参与者报告了沮丧、恼怒和不足感,尽管意识到系统非为他们设计,却常将失败内化为个人缺陷。他们进行了大量隐形劳动,而其语言文化知识未被技术认可。论文未提供具体的错误率数字或定量对比表格。 实际意义是什么:证明了仅基于准确性的算法公平性评估是片面的,呼吁ASR评估必须纳入情感劳动、认知负担和心理伤害等关键维度,推动更全面、更以人为本的公平性研究。 主要局限性是什么:论文中未明确说明局限性。根据摘要推断,其局限可能包括:研究样本的代表性、定性分析的主观性、以及缺乏与具体ASR模型性能的直接定量关联。 🏗️ 模型架构 本文是一篇用户研究与定性分析论文,不涉及提出新的算法或模型架构。因此,本节不适用。论文中未提及任何模型架构图。 ...