📄 Prompt-Guided Mixture-of-Experts for Robust Multimodal Sentiment Analysis with Missing Modalities

#语音情感识别 #多模态模型 #混合专家模型 #低资源 #知识蒸馏 #鲁棒性

🔥 8.5/10 | 前25% | #语音情感识别 | #混合专家模型 | #多模态模型 #低资源

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中

👥 作者与机构

  • 第一作者:Ziqi Shu (厦门大学电影学院)
  • 通讯作者:Qingfeng Wu (厦门大学电影学院)
  • 作者列表:Ziqi Shu† (厦门大学电影学院), Rongzhou Zhou† (厦门大学电影学院), Xiaodong Wang (厦门大学电影学院), Qingfeng Wu⋆ (厦门大学电影学院), Lu Cao (厦门大学)

💡 毒舌点评

亮点在于将MoE架构与Prompt生成、置信度加权相结合,为缺失模态问题提供了一个模块化且有理论深度的解决方案,且跨数据集、跨骨干网络的泛化性验证比较扎实。短板是论文对“生成式Prompt如何有效补偿缺失信号”这一核心假设的论证略显薄弱,更像一个工程组合而非原理上的突破,且完全未开源代码,对于声称解决实际问题的工作来说,可复现性大打折扣。

📌 核心摘要

本文针对多模态情感识别中普遍存在的模态缺失问题,提出了一个名为PMoE(Prompt-guided Mixture-of-Experts)的鲁棒识别框架。该方法的核心在于,在冻结的预训练Transformer主干网络基础上,引入三个关键组件:1)一个基于生成式Prompt和置信度加权融合的缺失模态补偿方案,用于生成并动态融合缺失模态的可靠表示;2)一个具有两阶段动态路由机制的MoE层,通过模态特定专家和共享专家池实现灵活的跨模态特征融合;3)一个自蒸馏策略,利用历史模型输出作为软目标来稳定训练和提升泛化能力。与已有方法(如MCTN、MMIN、MPLMM等)相比,PMoE首次将Prompt引导的生成、置信度评估、MoE的动态专家选择以及知识蒸馏有机结合,更系统地应对信息补偿、融合不稳定和训练泛化三大挑战。实验在CMU-MOSI、MOSEI、IEMOCAP和CH-SIMS四个基准数据集上进行,结果表明PMoE在各种模态缺失场景下(尤其是严重缺失时)均取得最优的准确率和F1分数。例如,在MOSEI数据集上,其平均准确率比最强基线MPLMM高出1.34%。该工作的实际意义在于为真实世界中因设备、隐私等原因导致的模态不完整场景提供了一个高效、鲁棒的情感分析解决方案。主要局限性在于:缺失模态生成器的性能高度依赖跨模态映射和注意力机制的有效性,可能在模态差异巨大时失效;论文未提供代码,限制了复现和验证。

🏗️ 模型架构

图1 图1展示了PMoE的整体框架。其数据处理流程如下:

  1. 输入映射与缺失模态生成:对于每个模态(文本T, 音频A, 视频V),首先通过模态特定的连接器将其映射到共享语义空间。当某个模态缺失时(例如音频缺失),通过一个跨模态注意力机制,利用存在的模态(视频和文本)生成缺失模态的表示(公式1-7)。生成过程中引入了“生成式Prompt”(P_Ga)。
  2. 统一表示构建与Prompt注入:结合观察到的特征、生成的缺失特征(通过置信度分数c_a进行加权融合,公式11-12),以及两层Prompt(局部信号Prompt和全局类型Prompt融合而成的统一Prompt P_Unified, 公式8-12),形成统一的输入表示z‘。
  3. 双分支处理:z‘被送入两个并行分支:
    • 冻结的Transformer主干:提供稳定的跨模态特征,作为类似“教师”的辅助特征来源,其参数不更新。
    • 可训练的MoE层:这是核心的“学生”分支。原始Transformer中的前馈网络(FFN)被MoE模块替代。
  4. 两阶段动态路由与MoE融合:MoE层内进行两级路由。第一级:根据模态指示符将令牌路由到对应的模态特定专家组(E_m)和共享专家池(S)。第二级:在每个组内,路由器(公式14)计算亲和度分数,选择Top-k个专家。最终输出由模态特定专家和共享专家的加权和得到(公式15, 平衡系数α, β)。
  5. 分类与自蒸馏:MoE输出的最终特征y(x)送入分类器得到预测。训练时,采用自蒸馏策略:将历史模型的输出(z_prev)作为软目标,通过KL散度损失(L_KD, 公式17)约束当前模型(z_S)的输出,以稳定训练。

整个框架在微调阶段只更新Prompt参数、模态连接器、MoE专家和路由器的参数,而保持预训练Transformer主干冻结。

💡 核心创新点

  1. Prompt引导的缺失模态生成与置信度加权融合:不同于简单的填充或翻译重建,该工作设计了一个包含跨模态注意力、生成式Prompt和局部自注意力的生成器来补偿缺失模态。更重要的是,引入置信度分数c_a动态权衡生成特征与观察特征,避免了不可靠的生成信息污染整体表示。
  2. 两阶段动态路由的MoE架构:将MoE应用于多模态融合,并设计了独特的两级路由:先按模态分组路由,再在组内按亲和度选择Top-k专家。这使得模型能灵活地为不同模态缺失情况选择合适的专家组合(模态特定专家捕捉细粒度特征,共享专家编码跨模态共性),提升了在模态不完整数据上的适应性。
  3. 用于鲁棒训练的自蒸馏策略:针对在小型情感数据集上微调可能不稳定的问题,引入自蒸馏。利用自身的历史输出作为软监督信号,平滑优化过程,并帮助新模块(Prompt, MoE)在迁移预训练知识时保持稳定,增强泛化能力。

🔬 细节详述

  • 训练数据:使用了四个公开多模态情感数据集:CMU-MOSI (2199 clips), CMU-MOSEI (>23500 utterances), IEMOCAP (302 videos), CH-SIMS (2281 segments)。预处理策略遵循文献[13]。数据增强策略为:在训练时以η = 70%的概率随机丢弃模态,模拟缺失情况。
  • 损失函数:总损失函数为 L_total = L_task + λ L_aux + λ_KD L_KD
    • L_task:标准的交叉熵分类损失,用于情感识别任务。
    • L_aux:路由平衡正则化损失,鼓励专家使用多样性,防止路由坍缩。具体形式未在文中给出。
    • L_KD:基于KL散度的自蒸馏损失(公式17),使用温度τ对历史输出和当前输出进行软化。
    • λ 和 λ_KD 为损失权重,具体值未说明。
  • 训练策略:
    • 优化器:Adam。
    • 微调范围:仅更新Prompt参数、模态连接器(Connectors)、MoE层中的专家参数和路由参数。对专家和路由参数应用了LoRA(低秩适配)进行高效微调。
    • 骨干网络:使用了在CMU-MOSEI上预训练的MulT [21]作为冻结的Transformer主干。
    • 训练轮数、学习率、warmup策略等未具体说明。
  • 关键超参数:
    • 模态随机丢弃率:η = 70%。
    • MoE中Top-k选择的具体k值未说明。
    • 平衡超参数α, β 未说明具体值。
    • 自蒸馏温度τ未说明具体值。
    • 模态专家数量N_m和共享专家数量N_S未说明。
  • 训练硬件:论文中未提及GPU/TPU型号、数量或训练时长。
  • 推理细节:论文中未提及推理时的特殊设置(如解码策略、beam search等),推测使用分类头进行直接预测。
  • 正则化或稳定训练技巧:自蒸馏策略本身即为一种稳定训练的技巧。路由平衡损失(L_aux)用于防止专家坍缩。

📊 实验结果

论文在四个数据集上,针对6种模态缺失组合(单模态:{a}, {v}, {t};双模态:{a,v}, {a,t}, {v,t})以及全模态(论文中未直接列出,但“Avg.”应包含)进行了实验,主要指标为准确率(ACC)和F1分数。

表1: 多种方法在四个数据集上的性能比较

数据集方法{a} ACC{a} F1{v} ACC{v} F1{t} ACC{t} F1{a,v} ACC{a,v} F1{a,t} ACC{a,t} F1{v,t} ACC{v,t} F1Avg. ACCAvg. F1
MOSIMCTN(19’)51.3256.1254.2756.3379.6379.7856.7957.8478.9679.1780.4580.6566.9068.32
MMIN(21’)59.1660.1261.0161.9880.1080.1663.7964.0880.5080.3380.4680.6370.8471.22
MPMM(23’)57.2659.3558.6359.1279.8180.1060.5461.3379.8979.8480.7480.9369.4870.11
MPLMM(24’)62.7163.6563.1263.7480.1280.3165.0265.4180.7681.0981.1281.1972.1472.57
PMoE(ours)63.1263.6163.2263.8380.9780.7866.9167.5382.4382.8881.6281.9173.0573.42
MOSEIMCTN(19’)66.1968.5866.7069.0178.3278.4168.1069.3479.1179.1478.6578.6472.8573.94
MMIN(21’)67.1168.6767.0169.3178.6778.7168.1769.7479.9479.9679.3279.2973.3774.39
MPMM(23’)66.9468.7467.2169.2778.2178.3068.1169.7979.4179.4779.6379.7173.2574.17
MPLMM(24’)67.3368.7167.2969.4079.1279.1768.2169.9180.4580.4380.1180.1373.7574.68
PMoE(ours)68.7269.0967.3170.0179.9179.8470.7671.8281.9881.5981.8381.7775.0975.69
IEMOCAPMCTN(19’)51.62†-45.73†-63.78†-55.84†-69.46†-68.34†-59.19†-
MMIN(21’)59.00†-51.60†-68.02†-65.43†-75.14†-73.61†-65.47†-
MPMM(23’)58.6957.6655.1855.3668.3968.0863.6863.4774.9074.9873.8072.6765.7765.37
MPLMM(24’)59.7759.7157.6156.9869.2369.2867.2667.3775.9875.4474.6874.5167.4267.22
PMoE(ours)60.0860.1358.3558.1970.1270.0168.9169.2476.5976.3475.9975.7968.3468.28
CH-SIMSMCTN(19’)64.3976.4864.1276.3477.7877.9263.4773.1176.6876.7177.2177.3670.6176.32
MMIN(21’)65.2177.0965.3277.4178.9178.6764.2873.3677.3277.3377.4077.4871.4176.89
MPMM(23’)64.9876.4165.4077.9278.5678.6564.0173.4777.1177.2077.5177.4771.2676.85
MPLMM(24’)65.9377.1066.0278.8679.7578.7465.2874.0277.4577.8477.9777.9572.0777.42
PMoE(ours)66.4777.5967.1379.7780.1479.5267.1275.8377.9078.1878.8278.9972.9378.31

关键结论:PMoE在所有数据集、几乎所有缺失模态设置下均取得最佳性能。优势在严重缺失(如只有文本{t}或只有视频{v})时尤为明显。例如,在MOSEI上,PMoE的平均ACC(75.09%)比最强的基线MPLMM(73.75%)高出1.34%。

图2 图2展示了在CMU-MOSI和IEMOCAP数据集上,随着模态缺失率从0%增加到100%,不同方法准确率和F1分数的变化曲线。关键结论是:PMoE(红色曲线)在高缺失率(>60%)下,性能下降的斜率最缓,展现出最强的鲁棒性。

表2: 在CMU-MOSI数据集上集成PMoE前后的性能对比

设置骨干模型原始性能+PMoE后���能提升 (ACC/F1)
完整模态MMIM84.82/84.1385.02/85.13+0.20/+1.00
UniMSE86.73/86.9587.12/87.25+0.39/+0.30
Acformer86.35/86.6786.88/86.98+0.53/+0.31
缺失模态MMIM68.49/67.3573.62/72.80+5.13/+5.45
UniMSE70.08/69.9375.26/74.82+5.18/+4.89
Acformer71.32/71.2175.14/75.01+3.82/+3.80

关键结论:将PMoE框架应用于三个不同的骨干网络(MMIM, UniMSE, Acformer),无论是在完整模态还是缺失模态下,性能均有提升,且在缺失模态下提升幅度(3.82%-5.45%)远大于完整模态下的提升(0.20%-0.53%),证明了PMoE作为即插即用模块的有效性和泛化能力。

表3: 消融实验(CMU-MOSI数据集,缺失率50%)

模型配置准确率 (%)F1 (%)
完整模型77.8177.66
- 去掉MoE层75.9576.08
- 去掉生成与Prompt机制76.7376.89
- 去掉自蒸馏策略76.9176.88
- 去掉MoE层 + 生成与Prompt75.2475.32
- 去掉MoE层 + 自蒸馏策略75.6675.73
- 去掉生成与Prompt + 自蒸馏策略76.0175.95
- 去掉所有增强模块(基础模型)74.9274.71

关键结论:每个模块的移除都会导致性能下降,证明了各组件的有效性。移除MoE层和生成与Prompt机制的组合(-1.86% ACC)造成的下降最大,说明这两个模块是核心且具有协同作用。

⚖️ 评分理由

  • 学术质量:6.5/7:论文提出了一个结构完整、设计合理的多组件框架来解决一个明确的工程问题。技术细节(如两级路由、置信度加权)描述清晰。实验覆盖全面,包括多数据集、多缺失场景、模型泛化性和详尽的消融实验,结果具有说服力。主要不足在于部分关键超参数和训练细节未公开,影响透明度;且生成模态的有效性假设较强,缺乏更深入的分析或验证。
  • 选题价值:1.8/2:多模态情感分析是活跃的研究领域,处理“缺失模态”这一现实挑战对技术的落地应用至关重要。该工作具有明确的应用导向和实用价值。选题聚焦且具有针对性。
  • 开源与复现加成:0.2/1:论文未提供代码、预训练模型或详细的配置信息,仅描述了方法和部分实验设置。这使得其他研究者难以直接复现和验证其结果,是显著的短板。微小的正分基于其引用的公开数据集和骨干网络。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及。
  • 数据集:使用了CMU-MOSI, MOSEI, IEMOCAP, CH-SIMS四个公开数据集。
  • Demo:未提及。
  • 复现材料:提供了方法的核心公式、训练流程(如使用Adam、随机丢弃率70%、LoRA)和部分消融实验设置,但缺少具体超参数(如学习率、batch size、专家数量、损失权重)和硬件信息。
  • 论文中引用的开源项目:提到了MulT [21]作为骨干网络,其代码应为公开。论文本身未声明开源计划。

← 返回 ICASSP 2026 论文分析