Prompt-Guided Mixture-of-Experts for Robust Multimodal Sentiment Analysis with Missing Modalities
📄 Prompt-Guided Mixture-of-Experts for Robust Multimodal Sentiment Analysis with Missing Modalities #语音情感识别 #多模态模型 #混合专家模型 #低资源 #知识蒸馏 #鲁棒性 🔥 8.5/10 | 前25% | #语音情感识别 | #混合专家模型 | #多模态模型 #低资源 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Ziqi Shu (厦门大学电影学院) 通讯作者:Qingfeng Wu (厦门大学电影学院) 作者列表:Ziqi Shu† (厦门大学电影学院), Rongzhou Zhou† (厦门大学电影学院), Xiaodong Wang (厦门大学电影学院), Qingfeng Wu⋆ (厦门大学电影学院), Lu Cao (厦门大学) 💡 毒舌点评 亮点在于将MoE架构与Prompt生成、置信度加权相结合,为缺失模态问题提供了一个模块化且有理论深度的解决方案,且跨数据集、跨骨干网络的泛化性验证比较扎实。短板是论文对“生成式Prompt如何有效补偿缺失信号”这一核心假设的论证略显薄弱,更像一个工程组合而非原理上的突破,且完全未开源代码,对于声称解决实际问题的工作来说,可复现性大打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了CMU-MOSI, MOSEI, IEMOCAP, CH-SIMS四个公开数据集。 Demo:未提及。 复现材料:提供了方法的核心公式、训练流程(如使用Adam、随机丢弃率70%、LoRA)和部分消融实验设置,但缺少具体超参数(如学习率、batch size、专家数量、损失权重)和硬件信息。 论文中引用的开源项目:提到了MulT [21]作为骨干网络,其代码应为公开。论文本身未声明开源计划。 📌 核心摘要 本文针对多模态情感识别中普遍存在的模态缺失问题,提出了一个名为PMoE(Prompt-guided Mixture-of-Experts)的鲁棒识别框架。该方法的核心在于,在冻结的预训练Transformer主干网络基础上,引入三个关键组件:1)一个基于生成式Prompt和置信度加权融合的缺失模态补偿方案,用于生成并动态融合缺失模态的可靠表示;2)一个具有两阶段动态路由机制的MoE层,通过模态特定专家和共享专家池实现灵活的跨模态特征融合;3)一个自蒸馏策略,利用历史模型输出作为软目标来稳定训练和提升泛化能力。与已有方法(如MCTN、MMIN、MPLMM等)相比,PMoE首次将Prompt引导的生成、置信度评估、MoE的动态专家选择以及知识蒸馏有机结合,更系统地应对信息补偿、融合不稳定和训练泛化三大挑战。实验在CMU-MOSI、MOSEI、IEMOCAP和CH-SIMS四个基准数据集上进行,结果表明PMoE在各种模态缺失场景下(尤其是严重缺失时)均取得最优的准确率和F1分数。例如,在MOSEI数据集上,其平均准确率比最强基线MPLMM高出1.34%。该工作的实际意义在于为真实世界中因设备、隐私等原因导致的模态不完整场景提供了一个高效、鲁棒的情感分析解决方案。主要局限性在于:缺失模态生成器的性能高度依赖跨模态映射和注意力机制的有效性,可能在模态差异巨大时失效;论文未提供代码,限制了复现和验证。 ...