Graph-based Modality Alignment for Robustness in Conversational Emotion Recognition
📄 Graph-based Modality Alignment for Robustness in Conversational Emotion Recognition #多模态模型 #语音情感识别 #对比学习 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #对比学习 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Dae Hyeon Kim(光云大学电子通信工程系) 通讯作者:Young-Seok Choi*(光云大学电子通信工程系) 作者列表:Dae Hyeon Kim(光云大学电子通信工程系), Young-Seok Choi(光云大学电子通信工程系) 💡 毒舌点评 亮点:该论文最大的贡献在于将对话上下文、说话者关系和多模态信息统一建模在一个异构图中,并通过一种无增强的跨模态图对比学习,显式地将不同模态的嵌入对齐到共享的情感空间,这在理论上优雅地解决了传统堆叠模型的信息瓶颈和模态崩溃问题。短板:论文的实验部分虽然全面,但其鲁棒性验证主要局限于单一模态缺失的极端情况,对于现实场景中更常见的模态质量退化(如音频噪声、视频模糊)或部分缺失的鲁棒性探讨不足。此外,代码未开源,这对于一篇依赖复杂图结构和对齐目标的工作而言,无疑是可复现性上的一个显著扣分项。 📌 核心摘要 解决的问题:多模态会话情感识别(MERC)中,传统堆叠式模型容易产生信息瓶颈和冲突的归纳偏见,且缺乏显式的模态对齐,导致模型在推理时遇到某些模态缺失(即“缺失模态问题”)时鲁棒性差。 方法核心:提出了一个名为EmotionHeart的统一框架。其核心是一个异构图Transformer,它将对话(作为节点集合)和其中的关系(说话者内、说话者间、模态间)构建为一个单一的图进行联合建模。同时,引入了一种无增强的跨模态图对比学习(GCL) 训练目标,强制对齐不同模态(音频、文本、视觉)的嵌入表示。 创新之处:1)与以往“序列+图”的堆叠架构不同,采用统一的异构图结构同时编码所有信息源,避免了信息瓶颈。2)提出了跨模态图对比学习,直接对齐单个模态的特征,而非早期融合后的特征,从而更好地解决模态崩溃和缺失模态问题。 主要实验结果:在IEMOCAP和MELD两个基准数据集上达到了新的SOTA。具体而言,在IEMOCAP上加权F1(w.F1)达到73.1%,在MELD上达到69.0%,均显著优于之前的最佳模型(p<0.001)。消融实验证明了异构性和跨模态GCL组件的有效性。关键实验数据如下: 方法 年份 架构 IEMOCAP (w.F1 %) MELD (w.F1 %) BIG-FUSION 2025 混合 72.9 67.2 EmotionHeart – 统一 73.1 69.0 表2(消融实验)显示,从标准Transformer(68.99%)到完整模型(73.13%),每一步添加核心组件都带来了性能提升和稳定性改善(标准差从4.73降至1.09)。 ...