DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingjian Yang(电子科技大学,智能协同计算实验室) 通讯作者:Wen Yin(电子科技大学,智能协同计算实验室) 作者列表:Mingjian Yang(电子科技大学,智能协同计算实验室)、Yong Wang(电子科技大学,智能协同计算实验室)、Peng Liu(电子科技大学,智能协同计算实验室)、Wen Yin†(电子科技大学,智能协同计算实验室) 💡 毒舌点评 亮点: 精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾,并通过将扩散过程严格约束在谱空间(特征值扩散)来优雅地同时解决这两个问题,设计思路清晰且有理论依据。 短板: 门控谱分类(GSC)模块中的熵加权机制更像是一种启发式的不确定性融合,对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足,可能限制了其在更复杂交互场景下的性能天花板。 📌 核心摘要 要解决的问题: 现实对话场景中,模态(文本、音频、视觉)缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”(破坏图结构或改变特征分布)和“静态融合”(固定权重无法适应动态变化)两大挑战。 方法核心: 提出DGSDNet框架,包含双谱扩散(DSD)模块和门控谱分类(GSC)模块。DSD将对话图谱(说话人图和时序图)分解为拓扑不变的特征向量和可扩散的特征值,并在特征值空间施加扩散过程以恢复缺失模态,从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控,动态融合双图谱信息。 与已有方法相比新在哪里: 区别于直接在特征空间或邻接矩阵上扩散的方法,本工作首次将扩散过程严格限制在图谱的谱空间(对角特征值矩阵)上进行,理论上避免了扩散过程破坏图的局部拓扑。同时,提出了基于重建不确定性的动态门控融合机制,替代了传统的静态加权。 主要实验结果: 在IEMOCAP和CMU-MOSI两个基准数据集上,当模态缺失率从0.0到0.7变化时,DGSDNet的平均加权F1分数(WAF1)分别达到77.60% 和 79.7%,超过了所有对比的SOTA方法(如GCNet, SDR-GNN, DiCMoR)。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性,移除DSD模块性能下降最显著。 实际意义: 提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性,对智能客服、人机交互、心理健康监测等应用有潜在价值。 主要局限性: 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证,泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构(如图2所示)分为三个主要阶段: ...

2026-04-29