Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence
📄 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence #多模态情感分析 #多模态模型 #对比学习 #混合专家 #情感计算 ✅ 7.0/10 | 前50% | #多模态情感分析 | #多模态模型 | #对比学习 #混合专家 学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Kaiwei Sun(重庆邮电大学 数据工程与可视化计算重点实验室) 通讯作者:未说明 作者列表:Kaiwei Sun(重庆邮电大学 数据工程与可视化计算重点实验室)、Yixian Guo(同前)、Jin Wang(同前)、Xin Deng(同前) 💡 毒舌点评 亮点在于将“共振”与“分歧”这一对哲学概念巧妙地映射到多模态表示学习中,并借助MoE机制实现了灵活的上下文感知融合,框架设计新颖且具有较好的可解释性潜力。然而,论文的“厚度”不足:训练细节披露不全(如GPU型号、具体训练时长)、消融实验过于“标准”而缺乏更深层的机制探索(如门控网络权重可视化),且对MoE中“专家”的具体结构描述简略,让扎实的创新打了折扣。 📌 核心摘要 要解决什么问题:现有基于表示学习或融合学习的多模态情感分析方法,面临模态间冗余噪声干扰以及融合策略静态、不灵活的挑战。 方法核心是什么:提出DPMSA-MoE框架。首先分别提取文本、音频、视觉的单模态特征;然后将每个特征投影到“语义共振”和“语义分歧”两个子空间,共形成六个视角的表征,并通过对比学习进行约束;最后,设计一个基于混合专家(MoE)的“语义中介”模块,利用门控网络动态加权融合这六个专家(每个子空间对应一个专家)的输出,生成最终的多模态表征。 与已有方法相比新在哪里:1)首次在多模态情感分析中显式建模“共振”(模态一致情感)与“分歧”(模态冲突情感)的双重视角。2)将MoE机制引入多模态融合,实现了根据输入上下文自适应地选择和组合不同语义来源的动态融合,而非固定的加权拼接或注意力机制。 主要实验结果如何:在三个基准数据集上,DPMSA-MoE均取得优异性能。在MOSI数据集上,7分类准确率(Acc-7)达到45.77%,相比次优模型CGGM提升2.56个百分点;在MOSEI上,5分类准确率(Acc-5)达到54.28%,相比基线有显著提升;在CH-SIMS上,3分类准确率(Acc-3)达到71.12%,相比ALMT提升2.19个百分点。消融实验表明,移除分歧建模、共振建模或MoE融合模块都会导致性能显著下降,其中MoE模块的移除影响最大。 实际意义是什么:该框架为处理复杂、冲突的多模态情感信号提供了一种新的范式,其动态融合机制增强了模型在真实世界多变场景下的鲁棒性和适应性,可应用于更精细的社交情绪理解、人机交互反馈等场景。 主要局限性是什么:论文未公开代码、模型和详细复现实验的硬件环境,降低了可复现性。消融实验未能深入探究MoE中专家数量、门控网络设计等关键超参数的影响。此外,双视角投影层的具体设计(如Tanh激活的作用)缺乏更深入的理论或实验分析。 🏗️ 模型架构 论文提出的DPMSA-MoE框架(如图1所示)主要由三个阶段组成: 单模态特征提取: 输入:文本(T)、音频(A)、视觉(V)三种模态的原始数据。 处理:使用BERT提取文本的[CLS] token表示作为文本特征 x_t;使用两个独立的、基于Transformer的编码器分别提取视觉特征 x_v 和音频特征 x_a。 输出:三个单模态特征向量。 双视角语义建模: ...