📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition

#多模态模型 #情感识别 #对比学习 #鲁棒性

7.5/10 | 前25% | #情感识别 | #对比学习 | #多模态模型 #鲁棒性

学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院)
  • 通讯作者:Yingxue Gao*(湖南大学计算机科学与电子工程学院)
  • 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院)、Zhijie Yu(未说明)、Yong Wei(未说明)、Bo Li(未说明)、Yingxue Gao(湖南大学计算机科学与电子工程学院)

💡 毒舌点评

这篇论文最大的亮点在于其问题洞察和框架设计——将模糊的“模态缺失鲁棒性”问题,转化为对“显著”与“细微”情感表征的显式解耦与利用,MHDW机制对此提供了巧妙的工程实现。短板在于,其生成模块(GM)采用简单的1D卷积聚合可用模态信息来“补全”缺失模态,这一假设(缺失模态信息可由其他模态线性合成)可能过于理想,在更极端或语义不一致的缺失场景下其有效性值得怀疑,论文对此缺乏深入分析。

📌 核心摘要

  1. 问题:多模态情感识别(MER)在实际部署中常面临模态缺失问题(如传感器故障),导致关键情感信号(尤其是微妙线索)丢失或模糊。现有注意力方法易受主导但无关信号干扰,难以捕获细微但有辨别力的线索。
  2. 方法核心:提出DSSR(解耦显著与细微表征)两阶段框架。第一阶段,通过动态对比学习在完整模态数据上训练通用编码器,提取跨模态不变的“显著”情感表征。第二阶段,针对缺失模态场景,先利用轻量生成模块补全缺失模态特征;然后,将显著表征作为自适应提示,通过多头动态加权(MHDW)机制,在多个子空间中评估并选择性地增强各模态的“细微”情感表征。
  3. 创新点:相较于现有直接融合或恢复缺失模态的方法,DSSR首次将情感表征显式分解为“显著”和“细微”两部分,并设计了针对性的学习机制(动态对比学习提取显著表征,MHDW增强细微表征)来分别处理,框架设计新颖。
  4. 主要实验结果:在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集的多种模态缺失场景(如仅声学、仅文本、缺两模态等)下,DSSR整体性能达到了SOTA。例如,在CMU-MOSI上,平均准确率/F1为75.86%/75.05%,优于次优方法P-RMF(76.71%/未提供)。消融实验证实,去除MHDW模块导致性能下降最大(如CMU-MOSI平均准确率下降2.82%)。
  5. 实际意义:该方法提高了MER系统在传感器故障、数据传输不完整等现实挑战下的可靠性,增强了其在人机交互、情感计算等应用中的实用性。
  6. 主要局限性:生成模块(GM)的补全能力依赖于其他模态的“线性聚合”假设,其对于复杂或语义冲突的缺失情况可能效果有限,论文未对此进行深入探讨和验证。

🏗️ 模型架构

DSSR是一个两阶段框架,其整体架构如图1所示。

DSSR整体架构图] (注:由于无法直接访问外部图片链接,此处根据论文描述和图1标识进行说明。图1展示了完整的两阶段流程。)

第一阶段:显著情感表征提取

  • 输入:对于一段包含L个话语的对话,分别提取声学(a)、文本(t)、视觉(v)模态的特征 (X_m),投影到共享的d维空间得到 (H_m)。
  • 组件:通用编码器 (E_g)(一个通用的序列编码器)。
  • 流程:(H_m) 输入 (E_g),输出各模态的显著情感表征 (Z_m = E_g(H_m))。
  • 关键机制:动态对比学习。该机制在训练时,首先保留预测置信度最高的前50%样本作为可靠子集,然后用指数移动平均(EMA)更新每个情感类别的原型向量 (c_j^m)。最终,通过一个动态对比损失(公式4)对齐样本表征与对应类别原型,同时拉远不同类别样本。损失函数中引入了置信度感知缩放因子 (\beta)(公式5),对距离原型近的样本强对齐,对距离远的样本弱调整。
  • 目标:使 (E_g) 学习到跨模态、鲁棒的显著情感信号(如笑声-快乐、语调低沉-悲伤),即使在模态缺失场景下也能稳定提取。

第二阶段:细微情感表征强化

  • 输入:在测试或训练第二阶段时,若存在缺失模态,则利用 生成模块(GM) 进行特征补全。GM通过一个简单的1D卷积网络,将可用模态特征聚合(取平均)后生成缺失模态的特征 (\tilde{H}_m)(公式6)。之后,所有模态(包括补全后的)特征 (H_m) 作为输入。
  • 组件:冻结的通用编码器 (E_g)、各模态专属编码器 (E_m^s)、多头动态加权(MHDW)模块、路由器(Router)。
  • 流程:
    1. 补全后的特征 (H_m) 分别输入冻结的 (E_g) 和对应的 (E_m^s)。(E_g) 再次提取显著表征 (Z_m)。(E_m^s) 提取各模态的细微情感表征候选 (S_m = E_m^s(\text{LN}(H_m)))。
    2. MHDW模块(图1左下详细展示):这是第二阶段的核心。它接收 (S_m) 和 (Z_m)。首先,通过不同的投影矩阵 ({W_m^k}_{k=1}^h) 将 (S_m) 映射到h个不同的子空间,得到h个子表征 (S_m W_m^k)。
    3. 重构与评分:对于每个头k,将子表征 (S_m W_m^k) 与显著表征 (Z_m) 在通道维度拼接(应用梯度阻断),送入一个MLP得到重构特征 (R_m^k)。通过比较 (R_m^k) 与原始输入特征 (H_m) 的相似度(使用温度控制的softmax归一化),为每个头分配一个权重 (w_m^k)(公式9)。重构质量越高的头,权重越大。
    4. 表征增强:增强后的细微表征 (E_m) 是各头子表征 (S_m W_m^k) 的加权和(公式10)。直观理解,MHDW机制在评估哪个子空间能最好地利用显著信息来“理解”当前模态的细微情感线索。
    5. 融合与分类:最终,将所有模态的显著表征 (Z_m) 和增强后的细微表征 (E_m) 拼接,通过一个路由器(Router)进行动态加权融合,得到融合表征 (U),最后通过全连接层输出情感预测。
  • 关键设计选择:
    • 两阶段解耦:将学习分解为先抓“显著共性”,再挖“细微个性”。
    • MHDW的重构目标:迫使细微表征与原始输入一致,从而确保其携带了模态特有但又被显著信息引导的有效情感信息。
    • 生成模块的轻量化:避免了复杂生成模型(如GAN、扩散模型)带来的计算开销和训练不稳定。

💡 核心创新点

  1. 情感表征的显式解耦:提出将情感信号分解为“显著”(Salient,如直接表情、语气)和“细微”(Subtle,如上下文暗示、反讽语气)两部分,并进行独立建模。之前的方法通常直接处理融合表征或单模态表征,未对此进行显式区分。
  2. 动态对比学习用于显著表征提取:创新性地设计了动态对比损失,通过置信度筛选和EMA原型更新,在完整数据上训练出鲁棒的通用编码器,为后续阶段提供稳定的“锚点”(即显著表征提示)。这比传统的静态对比学习更适应情感数据的噪声和多样性。
  3. 多头动态加权(MHDW)机制:这是一个新颖的自适应模块。它利用显著表征作为提示,通过重构目标来评估多个细微表征子空间的质量,并动态加权选择。这解决了在模态缺失时,如何从不确定、可能嘈杂的候选细微信号中挑选出最可靠部分的问题。
  4. 两阶段训练范式与轻量生成模块:第一阶段专注于学习通用显著表征,第二阶段专注于在缺失场景下增强细微表征。结合一个极简的生成模块进行模态补全,使整个框架在保持高效的同时,对缺失模态具有适应性。

🔬 细节详述

  • 训练数据:使用三个标准基准数据集:CMU-MOSI(2199段视频片段,情感二分类)、CMU-MOSEI(22856个话语,情感二分类)、IEMOCAP(12小时,4类情感分类)。论文未详细说明具体预处理和数据增强方法,仅提及遵循先前工作[13, 22, 32]。
  • 损失函数:
    • 第一阶段:总损失 (ℓ_{stage1} = ℓ_{task1} + ℓ_{cons})。(ℓ_{task1}) 为分类损失(交叉熵或MSE)。(ℓ_{cons}) 为动态对比损失(公式4)。
    • 第二阶段:总损失 (ℓ_{stage2} = ℓ_{task2} + ℓ_{rec})。(ℓ_{task2}) 为分类损失。(ℓ_{rec}) 为MHDW的重构损失(MSE,公式12),用于监督MHDW模块。
  • 训练策略:
    • 优化器:Adam。
    • 学习率与批大小:IEMOCAP: lr=2.5e-4, batch=16;MOSI: lr=2e-4, batch=32;MOSEI: lr=5e-5, batch=32。
    • Dropout率:0.5。
    • 训练轮数/步数:论文未具体说明。
  • 关键超参数:
    • MHDW的头数h:论文未明确给出具体值。
    • 对比学习温度τ:未说明。
    • 置信度筛选比例:前50%。
    • EMA平滑因子α:未说明。
  • 训练硬件:论文中未提及。
  • 推理细节:对于缺失模态,使用生成模块补全特征后进行前向传播。路由器的动态加权机制在推理时同样生效。
  • 正则化:使用了Dropout(率0.5)和层归一化(LN)。

📊 实验结果

主要对比实验结果(表1) 论文在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上,与多种SOTA方法(如MoMKE, P-RMF等)在7种测试条件(6种缺失场景+1种全模态)下进行了对比。关键数据如下表所示:

CMU-MOSI (Accuracy / F1)

模型{a}{t}{v}{a, v}{a, t}{t, v}平均{a,t,v}
MoMKE [22]63.19/58.6186.59/86.5263.35/63.3464.04/64.6687.20/87.1787.04/87.0075.24/74.5587.96/87.89
P-RMF [26]-/71.44-/81.36-/70.32-/73.11-/82.10-/81.94-/76.71-/84.37
DSSR (Ours)62.50/57.6387.37/87.3364.65/64.7764.96/65.1687.70/87.4687.98/87.9575.86/75.0588.90/88.78

CMU-MOSEI (Accuracy / F1)

模型{a}{t}{v}{a, v}{a, t}{t, v}平均{a,t,v}
MoMKE [22]72.56/71.0386.46/86.4370.12/70.2373.34/71.8286.68/86.6186.79/86.6979.33/78.8087.12/87.03
P-RMF [26]-/75.91-/81.91-/73.19-/76.88-/84.61-/85.17-/79.61-/85.48
DSSR (Ours)71.05/70.8187.60/87.4770.88/70.1771.34/71.0587.80/87.6387.90/87.8379.43/79.1687.94/87.87

IEMOCAP (WA / UA)

模型{a}{t}{v}{a, v}{a, t}{t, v}平均{a,t,v}
MoMKE [22]70.32/71.3877.82/78.3758.60/54.7068.85/67.6579.89/79.5377.87/77.8472.23/71.5880.13/79.99
DSSR (Ours)70.65/71.4679.58/79.7359.33/55.9669.34/68.3381.08/81.5980.74/81.1773.45/73.0481.52/82.35

结论:DSSR在三个数据集的整体��均性能上均取得了最佳或次佳的结果,尤其在最具挑战性的单模态缺失(如仅声学{a}或仅视觉{v})场景下优势明显。

消融实验结果(表2) 对关键组件MHDW、动态对比学习(DCL)、生成模块(GM)进行消融。关键发现:

  • MHDW贡献最大:移除MHDW后,性能下降最显著(CMU-MOSI平均准确率↓2.82%, F1↓2.04%;CMU-MOSEI平均准确率↓1.34%, F1↓1.32%;IEMOCAP平均WA↓2.12%, UA↓2.42%)。这表明自适应增强细微表征是核心。
  • DCL和GM也重要:移除DCL或GM也会导致不同程度的性能下降,证明了它们各自在提取稳定显著表征和处理缺失模态时的必要性。

案例分析(图2) 案例分析图] (注:根据图2标识进行说明。) 图2展示了一段IEMOCAP对话的推理过程。左侧是带情感标签的对话轮次,右侧是一个堆叠条形图,显示DSSR(启用MHDW)和DSSR(无MHDW)在每轮对话中分配给“显著特征”和“细微特征”的权重。分析表明:

  • 完整模型(DSSR)能够自适应地给“细微特征”分配更高权重,从而在诸如讽刺(Sarcastic tone)、困惑(Puzzled tone)等需要理解深层语义的轮次中做出正确预测。
  • 缺少MHDW的变体则倾向于错误分配权重,导致误分类。这直观验证了MHDW机制在利用细微情感线索上的有效性。

⚖️ 评分理由

  • 学术质量(6.5/7):论文动机明确,技术方案(解耦表征+动态学习机制)具有创新性和合理性。实验设计全面,覆盖了多种缺失场景、多个数据集和详尽的消融研究,结果具有说服力。主要扣分点在于生成模块(GM)的设计相对简单,其“线性聚合”假设的普适性未被深入讨论,可能在更复杂的现实缺失场景下存在局限性。
  • 选题价值(2.0/2):“模态缺失”是多模态学习走向实际应用必须解决的工程难题,该研究直接针对此痛点,提出了一个系统性的解决方案,对推动情感识别技术的实用化有积极意义,价值高。
  • 开源与复现加成(0.0/1):论文提供了代码仓库链接,这对于复现至关重要。但论文正文未提供模型权重、详细配置、训练日志等关键复现信息。代码仓库本身的内容质量未知(论文未描述),因此复现便利性存在不确定性,暂不加分。

🔗 开源详情

  • 代码:论文中提供了代码仓库链接:https://github.com/YYYYuZJ/DSSR.git。
  • 模型权重:论文中未提及是否公开预训练模型权重。
  • 数据集:使用的是公开的标准基准数据集(CMU-MOSI, CMU-MOSEI, IEMOCAP),如何获取未在论文中说明,通常需遵循各数据集官方协议。
  • Demo:论文中未提及提供在线演示。
  • 复现材料:论文中提供了一些实现细节(优化器、学习率、批大小、Dropout率),但缺乏训练轮数、具体硬件、关键超参数(如MHDW的头数h)的详细说明,也未提及是否提供训练好的检查点、详细配置文件或附录说明。
  • 论文中引用的开源项目:论文未明确列出其代码依赖的具体开源工具或模型。根据架构图推测,可能使用了预训练的wav2vec、DeBERTa、MA-Net作为各模态的特征提取器,但未在文中引用。

← 返回 ICASSP 2026 论文分析