缺失模态补全

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Mingjian Yang（电子科技大学，智能协同计算实验室）通讯作者：Wen Yin（电子科技大学，智能协同计算实验室）作者列表：Mingjian Yang（电子科技大学，智能协同计算实验室）、Yong Wang（电子科技大学，智能协同计算实验室）、Peng Liu（电子科技大学，智能协同计算实验室）、Wen Yin†（电子科技大学，智能协同计算实验室） 💡 毒舌点评亮点：精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾，并通过将扩散过程严格约束在谱空间（特征值扩散）来优雅地同时解决这两个问题，设计思路清晰且有理论依据。短板：门控谱分类（GSC）模块中的熵加权机制更像是一种启发式的不确定性融合，对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足，可能限制了其在更复杂交互场景下的性能天花板。 🔗 开源详情代码：论文提供了开源代码仓库链接：https://github.com/Yyyy-aizhien/DGSDNet。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文使用的IEMOCAP和CMU-MOSI为公开数据集，但论文中未提供获取或预处理脚本的具体说明。 Demo：论文中未提及提供在线演示。复现材料：论文提供了基础实现细节（优化器、学习率、Dropout率等），但缺少训练步数、批量大小、特征提取模型版本、具体GPU环境等关键复现信息。论文中引用的开源项目：论文中未明确列出所依赖的特定开源工具或模型库（如特征提取器）。 📌 核心摘要要解决的问题：现实对话场景中，模态（文本、音频、视觉）缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”（破坏图结构或改变特征分布）和“静态融合”（固定权重无法适应动态变化）两大挑战。方法核心：提出DGSDNet框架，包含双谱扩散（DSD）模块和门控谱分类（GSC）模块。DSD将对话图谱（说话人图和时序图）分解为拓扑不变的特征向量和可扩散的特征值，并在特征值空间施加扩散过程以恢复缺失模态，从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控，动态融合双图谱信息。与已有方法相比新在哪里：区别于直接在特征空间或邻接矩阵上扩散的方法，本工作首次将扩散过程严格限制在图谱的谱空间（对角特征值矩阵）上进行，理论上避免了扩散过程破坏图的局部拓扑。同时，提出了基于重建不确定性的动态门控融合机制，替代了传统的静态加权。主要实验结果：在IEMOCAP和CMU-MOSI两个基准数据集上，当模态缺失率从0.0到0.7变化时，DGSDNet的平均加权F1分数（WAF1）分别达到77.60% 和 79.7%，超过了所有对比的SOTA方法（如GCNet， SDR-GNN， DiCMoR）。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性，移除DSD模块性能下降最显著。实际意义：提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性，对智能客服、人机交互、心理健康监测等应用有潜在价值。主要局限性： 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证，泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构（如图2所示）分为三个主要阶段： ...