Unrequited Emotions: Investigating the Gaps in Motivation and Practice in Speech Emotion Recognition Research

📄 Unrequited Emotions: Investigating the Gaps in Motivation and Practice in Speech Emotion Recognition Research #语音情感识别 #系统性综述 #批判性分析 #伦理与公平 🔥 8.0/10 | 前25% | #语音情感识别 | #系统性综述 | #批判性分析 #伦理与公平 | arxiv 学术质量 8.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Taryn Wong (Johns Hopkins University) 通讯作者:未说明(论文提供了多位作者的邮箱,但未明确标注通讯作者) 作者列表:Taryn Wong (Johns Hopkins University)、Zeerak Talat (University of Edinburgh)、Hanan Aldarmaki (MBZUAI)、Anjalie Field (Johns Hopkins University) 💡 毒舌点评 亮点: 论文以极其严谨和系统的方法(手工编码88篇论文)为SER领域的“自我感动”与实践脱节提供了令人信服的量化证据,这种基于证据的批判比泛泛而谈的伦理讨论有力得多。短板: 作为一篇“元研究”,它诊断了问题,但提出的解决方案(“寻求合适数据集”或“追求不同动机”)相对宽泛,缺乏更深入的分析(例如,动机的演变是否受商业利益或资助导向驱动?),也未建立一个可操作的框架来帮助未来研究者实现动机与实践的对齐。 📌 核心摘要 这篇论文旨在揭示语音情感识别(SER)研究中声明的动机与所采用的实验实践(特别是数据集选择)之间存在的显著差距及其伦理风险。方法核心是对88篇SER论文进行系统性抽样和手工编码分析,评估其声明的动机(如健康医疗、语音助手)、使用的数据集以及研究的情感标签。与以往主要从面部识别或通用AI伦理角度进行批评不同,本文首次对SER研究实践本身进行了系统性调查。主要结果发现:1) 最常见的动机是实现“响应式机器人”(42.05%的论文),但最常用的数据集IEMOCAP(40.91%的论文)主要用于表演性数据,与自发人机交互场景存在领域不匹配;2) 论文选择性地使用数据集中的一部分情感标签(如愤怒、中性、悲伤、快乐),而非所有可用标签,且这种选择与声明的动机缺乏明确关联。实际意义是警示社区,这种动机与实践的脱节可能加剧技术误用和下游伤害的风险,呼吁研究者更批判性地评估项目动机并追求对齐。主要局限性是其分析样本(88篇论文)可能无法完全代表整个SER领域,尽管抽样过程力求系统化。 ...

2026-04-29

语音/音频论文速递 2026-04-29

语音/音频论文速递 2026-04-29 共分析 29 篇论文 ⚡ 今日概览 📥 抓取 29 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 4篇 ████ #多模态模型 3篇 ███ #语音情感识别 3篇 ███ #语音识别 3篇 ███ #语音对话系统 2篇 ██ #音乐生成 2篇 ██ #生成模型 1篇 █ #频谱测绘 1篇 █ 📊 论文评分排行榜(28 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D 8.5分 前25% #生成模型 🥈 Accelerating Regularized Attention Kernel Regression fo 8.5分 前25% #频谱测绘 🥉 Nemotron 3 Nano Omni: Efficient and Open Multimodal Int 8.5分 前25% #多模态模型 4. Step-Audio-R1.5 Technical Report 8.0分 前25% #语音对话系统 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. ML-SAN: Multi-Level Speaker-Adaptive Network for Emotio 8.0分 前25% #语音情感识别 7. Unrequited Emotions: Investigating the Gaps in Motivati 8.0分 前25% #语音情感识别 8. UNet-Based Fusion and Exponential Moving Average Adapta 7.5分 前25% #说话人验证 9. Walking Through Uncertainty: An Empirical Study of Unce 7.5分 前25% #音频问答 10. ASAP: An Azimuth-Priority Strip-Based Search Approach t 7.5分 前25% #声源定位 11. Mutual Forcing: Dual-Mode Self-Evolution for Fast Autor 7.5分 前25% #音频生成 12. SymphonyGen: 3D Hierarchical Orchestral Generation with 7.5分 前25% #音乐生成 13. PSP: An Interpretable Per-Dimension Accent Benchmark fo 7.5分 前25% #基准测试 14. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 15. Robust Accent Identification via Voice Conversion and N 7.5分 前25% #语音识别 16. Independent-Component-Based Encoding Models of Brain Ac 7.5分 前25% #神经编码 17. Beyond Isolated Utterances: Cue-Guided Interaction for 7.5分 前25% #多模态模型 18. Mitigating Shared-Private Branch Imbalance via Dual-Bra 7.5分 前25% #多模态模型 19. MMEB-V3: Measuring the Performance Gaps of Omni-Modalit 7.5分 前25% #基准测试 20. Human-1 by Josh Talks: A Full-Duplex Conversational Mod 7.5分 前50% #语音对话系统 21. ClawMark: A Living-World Benchmark for Multi-Turn, Mult 7.0分 前25% #基准测试 22. The Structured Output Benchmark: A Multi-Source Benchma 7.0分 前25% #基准测试 23. WhisperPipe: A Resource-Efficient Streaming Architectur 6.5分 前50% #语音识别 24. S-SONDO: Self-Supervised Knowledge Distillation for Gen 6.5分 前25% #音频分类 25. Monitoring exposure-length variations in submarine powe 6.5分 前50% #音频事件检测 26. Generative UI as an Accessibility Bridge: Lessons from 6.5分 前50% #无障碍 27. Korean aegyo speech shows systematic F1 increase to sig 6.0分 前50% #语音情感识别 28. Huí Sù: Co-constructing a Dual Feedback Apparatus 5.5分 后50% #音乐生成 29 Cross-Linguistic Rhythmic and Spectral Feature-Based An N/A - - 📋 论文列表 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv ...

2026-04-29