Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models
📄 Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models #语音情感识别 #数据增强 #音频大模型 #多模态模型 #低资源 ✅ 6.5/10 | 前50% | #语音情感识别 | #数据增强 | #音频大模型 #多模态模型 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Wenda Zhang (University of Melbourne, Melbourne, Australia) 通讯作者:Hongyu Jin (University of Melbourne, Melbourne, Australia) (论文中标注为*Equal contribution) 作者列表: Wenda Zhang (University of Melbourne) Hongyu Jin (University of Melbourne) Siyi Wang (University of Melbourne) Zhiqiang Wei (Xi’an Jiaotong University, Xi’an, China) Ting Dang (University of Melbourne) 💡 毒舌点评 这篇论文的核心亮点在于它首次系统性地将音频语言模型(ALM)生成的合成标注引入到情感分布估计任务中,并设计了一套包含数据增强(DiME-Aug)与评估的完整流程,为解决情感标注稀疏问题提供了新颖且可扩展的思路。然而,其短板也很明显:ALM生成的“合成感知代理”在面对人类本身就存在高度分歧的模糊情感时效果甚微,这恰恰是AER任务最具挑战性的部分,使得该方法目前更像是对低模糊区域的“锦上添花”,而非解决核心矛盾的“雪中送炭”。 ...