Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis
📄 Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis #多模态模型 #扩散模型 #多模态模型 #语音情感识别 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #扩散模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kaiyang Zheng(上海交通大学计算机科学与技术学院) 通讯作者:Gehao Sheng(上海交通大学计算机科学与技术学院) 作者列表:Kaiyang Zheng(上海交通大学计算机科学与技术学院)、Gehao Sheng(上海交通大学计算机科学与技术学院) 💡 毒舌点评 亮点:该工作将扩散模型从生成任务“跨界”到语义修复,用于对齐和修正多模态下的噪声文本,是一个颇具巧思的“认知模拟”尝试,为处理模态缺失提供了新思路。短板:整体框架依赖外部的情绪描述生成模块(EDG),核心创新更侧重于框架整合与特定组件(如Hybrid MoE)的设计,而非底层原理突破;论文对“Semantic Cortex Emulator”等命名略显“包装”,部分机制解释深度有限。 📌 核心摘要 要解决的问题:多模态情感分析(MSA)中,文本模态常因口语化和ASR错误而包含噪声和歧义,现有方法处理此类噪声鲁棒性不足。 方法核心:提出受认知启发的两阶段框架SDHM。第一阶段,使用混合线性注意力与Transformer的MoE模型渐进增强单模态特征,并引入基于扩散模型的重建损失来对齐多模态线索、修复损坏内容。第二阶段,将重建后的语义特征与原始文本特征融合,形成鲁棒的主模态表示进行最终预测。 与已有方法相比新在哪里:首次在MSA领域将扩散模型用于文本模态的语义修复(而非高层融合或生成);设计了交替使用线性MoE和Transformer-MoE的“混合专家”结构,旨在平衡特征描述对齐与上下文语义提取,并抑制噪声放大。 主要实验结果:在MOSI和SIMS数据集的随机模态缺失设定下,SDHM取得了SOTA性能。在MOSI上,MAE降至0.698,相关系数Corr提升至0.800(均为p<0.01显著提升)。在模态缺失鲁棒性测试中,当缺失率为0.3时,其MAE仍比LNLN低0.086,Corr高0.084。消融实验证明,结合混合MoE与扩散损失能带来最大性能增益。 实际意义:提升了MSA模型在真实世界(多噪声、多缺失模态)场景下的预测准确性和鲁棒性,对人机交互、情感计算等应用有直接价值。 主要局限性:在极端模态缺失(如缺失率0.8)条件下,分类准确率(如Acc-7)仍略低于部分基线模型。框架依赖外部生成的情绪描述,增加了系统复杂度。 🏗️ 模型架构 SDHM是一个两阶段、多组件的端到端框架。其整体处理流程如下图所示(图1): 输入与预处理:所有模态(文本、音频、视觉)的原始特征首先被输入到情感描述生成器(EDG),为音频和视觉模态生成文本形式的情绪描述。这些描述与原始特征拼接,形成增强的输入。 单模态增强(Unimodal MoE Enhancement):每个模态的增强输入 Im 经过轻量级序列建模(LSM)层(采用线性注意力,以提升对噪声的稳定性)和MoE层(使用稀疏路由的专家网络)。这一模块旨在丰富每个模态的情绪上下文,输出增强后的单模态表示。 语义皮层模拟器(Semantic Cortex Emulator, SCE):这是框架的核心,模拟人脑的“学习-推理”过程。 语义挖掘块:文本模态被 J 个堆叠的Transformer-MoE块迭代处理,生成一系列深度语义表示 H_t^j。 场景推理块:引入条件扩散模型。以最后一个Transformer-MoE层输出 H_t^J 为锚点,将其与噪声文本 Z_t 进行扩散对齐,目标是学习从噪声中恢复纯净语义。条件向量 C 由文本、音频、视觉的特征拼接投影得到,并通过交叉注意力与噪声表征融合。训练目标是最小化预测噪声的损失。推理时仅执行一步去噪。 辅助模态对齐:利用文本的中间层表示 H_t^{j-1} 作为查询,对音频和视觉特征进行跨模态注意力更新,使次要模态逐步与文本对齐。 融合与预测:经过SCE处理的文本语义特征(包括扩散修复后的 ̂H_t)与对齐后的音频、视觉特征一起,输入到混合融合块(交替使用Transformer-MoE和Linear-MoE层)进行跨模态融合。最终,由基于Mamba的MoE-Head进行序列级抽象,输出情感预测结果。 关键设计选择: ...