📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition

#多模态模型 #情感识别 #对比学习 #鲁棒性

✅ 7.5/10 | 前25% | #情感识别 | #对比学习 | #多模态模型 #鲁棒性

学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Huan Zhao（湖南大学计算机科学与电子工程学院）
通讯作者：Yingxue Gao*（湖南大学计算机科学与电子工程学院）
作者列表：Huan Zhao（湖南大学计算机科学与电子工程学院）、Zhijie Yu（未说明）、Yong Wei（未说明）、Bo Li（未说明）、Yingxue Gao（湖南大学计算机科学与电子工程学院）

💡 毒舌点评

这篇论文最大的亮点在于其问题洞察和框架设计——将模糊的“模态缺失鲁棒性”问题，转化为对“显著”与“细微”情感表征的显式解耦与利用，MHDW机制对此提供了巧妙的工程实现。短板在于，其生成模块（GM）采用简单的1D卷积聚合可用模态信息来“补全”缺失模态，这一假设（缺失模态信息可由其他模态线性合成）可能过于理想，在更极端或语义不一致的缺失场景下其有效性值得怀疑，论文对此缺乏深入分析。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/YYYYuZJ/DSSR.git。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：使用的是公开的标准基准数据集（CMU-MOSI, CMU-MOSEI, IEMOCAP），如何获取未在论文中说明，通常需遵循各数据集官方协议。
Demo：论文中未提及提供在线演示。
复现材料：论文中提供了一些实现细节（优化器、学习率、批大小、Dropout率），但缺乏训练轮数、具体硬件、关键超参数（如MHDW的头数h）的详细说明，也未提及是否提供训练好的检查点、详细配置文件或附录说明。
论文中引用的开源项目：论文未明确列出其代码依赖的具体开源工具或模型。根据架构图推测，可能使用了预训练的wav2vec、DeBERTa、MA-Net作为各模态的特征提取器，但未在文中引用。

📌 核心摘要

问题：多模态情感识别（MER）在实际部署中常面临模态缺失问题（如传感器故障），导致关键情感信号（尤其是微妙线索）丢失或模糊。现有注意力方法易受主导但无关信号干扰，难以捕获细微但有辨别力的线索。
方法核心：提出DSSR（解耦显著与细微表征）两阶段框架。第一阶段，通过动态对比学习在完整模态数据上训练通用编码器，提取跨模态不变的“显著”情感表征。第二阶段，针对缺失模态场景，先利用轻量生成模块补全缺失模态特征；然后，将显著表征作为自适应提示，通过多头动态加权（MHDW）机制，在多个子空间中评估并选择性地增强各模态的“细微”情感表征。
创新点：相较于现有直接融合或恢复缺失模态的方法，DSSR首次将情感表征显式分解为“显著”和“细微”两部分，并设计了针对性的学习机制（动态对比学习提取显著表征，MHDW增强细微表征）来分别处理，框架设计新颖。
主要实验结果：在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集的多种模态缺失场景（如仅声学、仅文本、缺两模态等）下，DSSR整体性能达到了SOTA。例如，在CMU-MOSI上，平均准确率/F1为75.86%/75.05%，优于次优方法P-RMF（76.71%/未提供）。消融实验证实，去除MHDW模块导致性能下降最大（如CMU-MOSI平均准确率下降2.82%）。
实际意义：该方法提高了MER系统在传感器故障、数据传输不完整等现实挑战下的可靠性，增强了其在人机交互、情感计算等应用中的实用性。
主要局限性：生成模块（GM）的补全能力依赖于其他模态的“线性聚合”假设，其对于复杂或语义冲突的缺失情况可能效果有限，论文未对此进行深入探讨和验证。

🏗️ 模型架构

DSSR是一个两阶段框架，其整体架构如图1所示。

DSSR整体架构图] (注：由于无法直接访问外部图片链接，此处根据论文描述和图1标识进行说明。图1展示了完整的两阶段流程。)

第一阶段：显著情感表征提取

输入：对于一段包含L个话语的对话，分别提取声学(a)、文本(t)、视觉(v)模态的特征 \(X_m\)，投影到共享的d维空间得到 \(H_m\)。
组件：通用编码器 \(E_g\)（一个通用的序列编码器）。
流程：\(H_m\) 输入 \(E_g\)，输出各模态的显著情感表征 \(Z_m = E_g(H_m)\)。
关键机制：动态对比学习。该机制在训练时，首先保留预测置信度最高的前50%样本作为可靠子集，然后用指数移动平均（EMA）更新每个情感类别的原型向量 \(c_j^m\)。最终，通过一个动态对比损失（公式4）对齐样本表征与对应类别原型，同时拉远不同类别样本。损失函数中引入了置信度感知缩放因子 \(\beta\)（公式5），对距离原型近的样本强对齐，对距离远的样本弱调整。
目标：使 \(E_g\) 学习到跨模态、鲁棒的显著情感信号（如笑声-快乐、语调低沉-悲伤），即使在模态缺失场景下也能稳定提取。

第二阶段：细微情感表征强化

输入：在测试或训练第二阶段时，若存在缺失模态，则利用生成模块（GM）进行特征补全。GM通过一个简单的1D卷积网络，将可用模态特征聚合（取平均）后生成缺失模态的特征 \(\tilde{H}_m\)（公式6）。之后，所有模态（包括补全后的）特征 \(H_m\) 作为输入。
组件：冻结的通用编码器 \(E_g\)、各模态专属编码器 \(E_m^s\)、多头动态加权（MHDW）模块、路由器（Router）。
流程：
1. 补全后的特征 \(H_m\) 分别输入冻结的 \(E_g\) 和对应的 \(E_m^s\)。\(E_g\) 再次提取显著表征 \(Z_m\)。\(E_m^s\) 提取各模态的细微情感表征候选 \(S_m = E_m^s(\text{LN}(H_m))\)。
2. MHDW模块（图1左下详细展示）：这是第二阶段的核心。它接收 \(S_m\) 和 \(Z_m\)。首先，通过不同的投影矩阵 \(\{W_m^k\}_{k=1}^h\) 将 \(S_m\) 映射到h个不同的子空间，得到h个子表征 \(S_m W_m^k\)。
3. 重构与评分：对于每个头k，将子表征 \(S_m W_m^k\) 与显著表征 \(Z_m\) 在通道维度拼接（应用梯度阻断），送入一个MLP得到重构特征 \(R_m^k\)。通过比较 \(R_m^k\) 与原始输入特征 \(H_m\) 的相似度（使用温度控制的softmax归一化），为每个头分配一个权重 \(w_m^k\)（公式9）。重构质量越高的头，权重越大。
4. 表征增强：增强后的细微表征 \(E_m\) 是各头子表征 \(S_m W_m^k\) 的加权和（公式10）。直观理解，MHDW机制在评估哪个子空间能最好地利用显著信息来“理解”当前模态的细微情感线索。
5. 融合与分类：最终，将所有模态的显著表征 \(Z_m\) 和增强后的细微表征 \(E_m\) 拼接，通过一个路由器（Router）进行动态加权融合，得到融合表征 \(U\)，最后通过全连接层输出情感预测。
关键设计选择：
- 两阶段解耦：将学习分解为先抓“显著共性”，再挖“细微个性”。
- MHDW的重构目标：迫使细微表征与原始输入一致，从而确保其携带了模态特有但又被显著信息引导的有效情感信息。
- 生成模块的轻量化：避免了复杂生成模型（如GAN、扩散模型）带来的计算开销和训练不稳定。

💡 核心创新点

情感表征的显式解耦：提出将情感信号分解为“显著”（Salient，如直接表情、语气）和“细微”（Subtle，如上下文暗示、反讽语气）两部分，并进行独立建模。之前的方法通常直接处理融合表征或单模态表征，未对此进行显式区分。
动态对比学习用于显著表征提取：创新性地设计了动态对比损失，通过置信度筛选和EMA原型更新，在完整数据上训练出鲁棒的通用编码器，为后续阶段提供稳定的“锚点”（即显著表征提示）。这比传统的静态对比学习更适应情感数据的噪声和多样性。
多头动态加权（MHDW）机制：这是一个新颖的自适应模块。它利用显著表征作为提示，通过重构目标来评估多个细微表征子空间的质量，并动态加权选择。这解决了在模态缺失时，如何从不确定、可能嘈杂的候选细微信号中挑选出最可靠部分的问题。
两阶段训练范式与轻量生成模块：第一阶段专注于学习通用显著表征，第二阶段专注于在缺失场景下增强细微表征。结合一个极简的生成模块进行模态补全，使整个框架在保持高效的同时，对缺失模态具有适应性。

🔬 细节详述

训练数据：使用三个标准基准数据集：CMU-MOSI（2199段视频片段，情感二分类）、CMU-MOSEI（22856个话语，情感二分类）、IEMOCAP（12小时，4类情感分类）。论文未详细说明具体预处理和数据增强方法，仅提及遵循先前工作[13, 22, 32]。
损失函数：
- 第一阶段：总损失 \(ℓ_{stage1} = ℓ_{task1} + ℓ_{cons}\)。\(ℓ_{task1}\) 为分类损失（交叉熵或MSE）。\(ℓ_{cons}\) 为动态对比损失（公式4）。
- 第二阶段：总损失 \(ℓ_{stage2} = ℓ_{task2} + ℓ_{rec}\)。\(ℓ_{task2}\) 为分类损失。\(ℓ_{rec}\) 为MHDW的重构损失（MSE，公式12），用于监督MHDW模块。
训练策略：
- 优化器：Adam。
- 学习率与批大小：IEMOCAP: lr=2.5e-4, batch=16；MOSI: lr=2e-4, batch=32；MOSEI: lr=5e-5, batch=32。
- Dropout率：0.5。
- 训练轮数/步数：论文未具体说明。
关键超参数：
- MHDW的头数h：论文未明确给出具体值。
- 对比学习温度τ：未说明。
- 置信度筛选比例：前50%。
- EMA平滑因子α：未说明。
训练硬件：论文中未提及。
推理细节：对于缺失模态，使用生成模块补全特征后进行前向传播。路由器的动态加权机制在推理时同样生效。
正则化：使用了Dropout（率0.5）和层归一化（LN）。

📊 实验结果

主要对比实验结果（表1）论文在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上，与多种SOTA方法（如MoMKE, P-RMF等）在7种测试条件（6种缺失场景+1种全模态）下进行了对比。关键数据如下表所示：

CMU-MOSI (Accuracy / F1)

模型	{a}	{t}	{v}	{a, v}	{a, t}	{t, v}	平均	{a,t,v}
MoMKE [22]	63.19/58.61	86.59/86.52	63.35/63.34	64.04/64.66	87.20/87.17	87.04/87.00	75.24/74.55	87.96/87.89
P-RMF [26]	-/71.44	-/81.36	-/70.32	-/73.11	-/82.10	-/81.94	-/76.71	-/84.37
DSSR (Ours)	62.50/57.63	87.37/87.33	64.65/64.77	64.96/65.16	87.70/87.46	87.98/87.95	75.86/75.05	88.90/88.78

CMU-MOSEI (Accuracy / F1)

模型	{a}	{t}	{v}	{a, v}	{a, t}	{t, v}	平均	{a,t,v}
MoMKE [22]	72.56/71.03	86.46/86.43	70.12/70.23	73.34/71.82	86.68/86.61	86.79/86.69	79.33/78.80	87.12/87.03
P-RMF [26]	-/75.91	-/81.91	-/73.19	-/76.88	-/84.61	-/85.17	-/79.61	-/85.48
DSSR (Ours)	71.05/70.81	87.60/87.47	70.88/70.17	71.34/71.05	87.80/87.63	87.90/87.83	79.43/79.16	87.94/87.87

IEMOCAP (WA / UA)

模型	{a}	{t}	{v}	{a, v}	{a, t}	{t, v}	平均	{a,t,v}
MoMKE [22]	70.32/71.38	77.82/78.37	58.60/54.70	68.85/67.65	79.89/79.53	77.87/77.84	72.23/71.58	80.13/79.99
DSSR (Ours)	70.65/71.46	79.58/79.73	59.33/55.96	69.34/68.33	81.08/81.59	80.74/81.17	73.45/73.04	81.52/82.35

结论：DSSR在三个数据集的整体��均性能上均取得了最佳或次佳的结果，尤其在最具挑战性的单模态缺失（如仅声学{a}或仅视觉{v}）场景下优势明显。

消融实验结果（表2）对关键组件MHDW、动态对比学习（DCL）、生成模块（GM）进行消融。关键发现：

MHDW贡献最大：移除MHDW后，性能下降最显著（CMU-MOSI平均准确率↓2.82%， F1↓2.04%；CMU-MOSEI平均准确率↓1.34%， F1↓1.32%；IEMOCAP平均WA↓2.12%， UA↓2.42%）。这表明自适应增强细微表征是核心。
DCL和GM也重要：移除DCL或GM也会导致不同程度的性能下降，证明了它们各自在提取稳定显著表征和处理缺失模态时的必要性。

案例分析（图2）案例分析图] (注：根据图2标识进行说明。) 图2展示了一段IEMOCAP对话的推理过程。左侧是带情感标签的对话轮次，右侧是一个堆叠条形图，显示DSSR（启用MHDW）和DSSR（无MHDW）在每轮对话中分配给“显著特征”和“细微特征”的权重。分析表明：

完整模型（DSSR）能够自适应地给“细微特征”分配更高权重，从而在诸如讽刺（Sarcastic tone）、困惑（Puzzled tone）等需要理解深层语义的轮次中做出正确预测。
缺少MHDW的变体则倾向于错误分配权重，导致误分类。这直观验证了MHDW机制在利用细微情感线索上的有效性。

⚖️ 评分理由

学术质量（6.5/7）：论文动机明确，技术方案（解耦表征+动态学习机制）具有创新性和合理性。实验设计全面，覆盖了多种缺失场景、多个数据集和详尽的消融研究，结果具有说服力。主要扣分点在于生成模块（GM）的设计相对简单，其“线性聚合”假设的普适性未被深入讨论，可能在更复杂的现实缺失场景下存在局限性。
选题价值（2.0/2）：“模态缺失”是多模态学习走向实际应用必须解决的工程难题，该研究直接针对此痛点，提出了一个系统性的解决方案，对推动情感识别技术的实用化有积极意义，价值高。
开源与复现加成（0.0/1）：论文提供了代码仓库链接，这对于复现至关重要。但论文正文未提供模型权重、详细配置、训练日志等关键复现信息。代码仓库本身的内容质量未知（论文未描述），因此复现便利性存在不确定性，暂不加分。

← 返回 ICASSP 2026 论文分析

📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文