Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation
📄 Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation #多模态情感识别 #图神经网络 #对比学习 #会话理解 #情感计算 ✅ 7.5/10 | 前25% | #多模态情感识别 | #图神经网络 | #对比学习 #会话理解 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhao (论文中作者列表首位,但未明确标注“第一作者”,因此按惯例推断) 通讯作者:Yingxue Gao (论文明确标注“*Corresponding authors: Y. Gao”) 作者列表:Huan Zhao (湖南大学计算机科学与电子工程学院)、Gong Chen (湖南大学计算机科学与电子工程学院)、Zhijie Yu (湖南大学计算机科学与电子工程学院)、Yingxue Gao* (湖南大学计算机科学与电子工程学院) 💡 毒舌点评 该论文的亮点在于其“共识感知学习模块”设计得相当精巧,通过原型学习和说话人对比损失双管齐下,直击多模态情感识别中“模态冲突”这一核心痛点,理论动机清晰且有效。短板在于其创新更多是增量式的改进而非范式突破,且“共识原型”的学习本质上还是依赖于有监督的类别标签,对于完全未知的、细粒度的或混合情感表达,其泛化能力有待进一步验证。 📌 核心摘要 要解决的问题:现有对话多模态情感识别(MERC)方法常忽略同一情感类别在不同模态(如声音、语言、表情)下所体现的“情感共识”,导致模态间冲突信号影响识别精度,且难以处理类别混淆和样本不均衡问题。 方法核心:提出图基情感共识感知(GECP)框架。其核心是共识感知学习(CAL)模块,包含两阶段:1) 构建多模态传播图以捕获跨模态共享信号与特有差异;2) 通过情感共识学习单元将各模态信号与共同的“情感原型”对齐,提炼类别本质特征。 与已有方法相比新在何处:不同于以往主要关注上下文依赖或简单融合的方法,GECP显式地建模并学习了类别级的情感共识原型,并通过引入说话人引导的对比学习损失,在对齐跨模态语义的同时,保留了个体表达的多样性。 主要实验结果:在IEMOCAP和MELD数据集上,GECP均取得了最佳性能。 IEMOCAP:Weighted-F1 72.85%, Accuracy 72.91%, 较之前最优模型(Frame-SCN)分别提升约1.85%和1.93%。 MELD:Weighted-F1 66.96%, Accuracy 68.08%, 较之前最优模型(FrameERC)分别提升约0.33%和0.46%。消融实验证明,移除CA单元或任一损失函数(Lc, LSpk)都会导致性能下降,其中移除CA单元下降最明显。 实际意义:提升了机器在复杂对话场景中理解人类情感的能力,尤其在处理情感类别易混淆和样本分布不平衡的情况下更为有效,可直接应用于提升智能客服、社交机器人等系统的交互体验。 主要局限性:论文中未深入讨论。潜在局限可能包括:对动态演变的情感共识建模不足(未来工作已提及)、模型复杂度较高、以及在跨文化、跨语言场景下的泛化能力未被验证。 🏗️ 模型架构 图1展示了GECP的总体架构,其处理流程如下: ...