Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis
📄 Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis #多模态模型 #扩散模型 #多模态模型 #语音情感识别 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #扩散模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kaiyang Zheng(上海交通大学计算机科学与技术学院) 通讯作者:Gehao Sheng(上海交通大学计算机科学与技术学院) 作者列表:Kaiyang Zheng(上海交通大学计算机科学与技术学院)、Gehao Sheng(上海交通大学计算机科学与技术学院) 💡 毒舌点评 亮点:该工作将扩散模型从生成任务“跨界”到语义修复,用于对齐和修正多模态下的噪声文本,是一个颇具巧思的“认知模拟”尝试,为处理模态缺失提供了新思路。短板:整体框架依赖外部的情绪描述生成模块(EDG),核心创新更侧重于框架整合与特定组件(如Hybrid MoE)的设计,而非底层原理突破;论文对“Semantic Cortex Emulator”等命名略显“包装”,部分机制解释深度有限。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/zhengky-paper-account/SDHM。 模型权重:未提及。 数据集:论文中使用了公开数据集CMU-MOSI和CH-SIMS,但未说明是否提供已处理好的数据或特定预处理脚本。 Demo:未提供。 复现材料:论文给出了一些关键超参数(如扩散步数、beta范围、模型深度、专家数等),但未提供完整的训练配置文件、预训练权重或训练日志。 引用的开源项目:论文引用了DEVA、Linear-MoE等开源工作,并在其基础上进行改进。 📌 核心摘要 要解决的问题:多模态情感分析(MSA)中,文本模态常因口语化和ASR错误而包含噪声和歧义,现有方法处理此类噪声鲁棒性不足。 方法核心:提出受认知启发的两阶段框架SDHM。第一阶段,使用混合线性注意力与Transformer的MoE模型渐进增强单模态特征,并引入基于扩散模型的重建损失来对齐多模态线索、修复损坏内容。第二阶段,将重建后的语义特征与原始文本特征融合,形成鲁棒的主模态表示进行最终预测。 与已有方法相比新在哪里:首次在MSA领域将扩散模型用于文本模态的语义修复(而非高层融合或生成);设计了交替使用线性MoE和Transformer-MoE的“混合专家”结构,旨在平衡特征描述对齐与上下文语义提取,并抑制噪声放大。 主要实验结果:在MOSI和SIMS数据集的随机模态缺失设定下,SDHM取得了SOTA性能。在MOSI上,MAE降至0.698,相关系数Corr提升至0.800(均为p<0.01显著提升)。在模态缺失鲁棒性测试中,当缺失率为0.3时,其MAE仍比LNLN低0.086,Corr高0.084。消融实验证明,结合混合MoE与扩散损失能带来最大性能增益。 实际意义:提升了MSA模型在真实世界(多噪声、多缺失模态)场景下的预测准确性和鲁棒性,对人机交互、情感计算等应用有直接价值。 主要局限性:在极端模态缺失(如缺失率0.8)条件下,分类准确率(如Acc-7)仍略低于部分基线模型。框架依赖外部生成的情绪描述,增加了系统复杂度。 🏗️ 模型架构 SDHM是一个两阶段、多组件的端到端框架。其整体处理流程如下图所示(图1): ...