Unrequited Emotions: Investigating the Gaps in Motivation and Practice in Speech Emotion Recognition Research

📄 Unrequited Emotions: Investigating the Gaps in Motivation and Practice in Speech Emotion Recognition Research #语音情感识别 #系统性综述 #批判性分析 #伦理与公平 🔥 8.0/10 | 前25% | #语音情感识别 | #系统性综述 | #批判性分析 #伦理与公平 | arxiv 学术质量 8.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Taryn Wong (Johns Hopkins University) 通讯作者:未说明(论文提供了多位作者的邮箱,但未明确标注通讯作者) 作者列表:Taryn Wong (Johns Hopkins University)、Zeerak Talat (University of Edinburgh)、Hanan Aldarmaki (MBZUAI)、Anjalie Field (Johns Hopkins University) 💡 毒舌点评 亮点: 论文以极其严谨和系统的方法(手工编码88篇论文)为SER领域的“自我感动”与实践脱节提供了令人信服的量化证据,这种基于证据的批判比泛泛而谈的伦理讨论有力得多。短板: 作为一篇“元研究”,它诊断了问题,但提出的解决方案(“寻求合适数据集”或“追求不同动机”)相对宽泛,缺乏更深入的分析(例如,动机的演变是否受商业利益或资助导向驱动?),也未建立一个可操作的框架来帮助未来研究者实现动机与实践的对齐。 📌 核心摘要 这篇论文旨在揭示语音情感识别(SER)研究中声明的动机与所采用的实验实践(特别是数据集选择)之间存在的显著差距及其伦理风险。方法核心是对88篇SER论文进行系统性抽样和手工编码分析,评估其声明的动机(如健康医疗、语音助手)、使用的数据集以及研究的情感标签。与以往主要从面部识别或通用AI伦理角度进行批评不同,本文首次对SER研究实践本身进行了系统性调查。主要结果发现:1) 最常见的动机是实现“响应式机器人”(42.05%的论文),但最常用的数据集IEMOCAP(40.91%的论文)主要用于表演性数据,与自发人机交互场景存在领域不匹配;2) 论文选择性地使用数据集中的一部分情感标签(如愤怒、中性、悲伤、快乐),而非所有可用标签,且这种选择与声明的动机缺乏明确关联。实际意义是警示社区,这种动机与实践的脱节可能加剧技术误用和下游伤害的风险,呼吁研究者更批判性地评估项目动机并追求对齐。主要局限性是其分析样本(88篇论文)可能无法完全代表整个SER领域,尽管抽样过程力求系统化。 ...

2026-04-29