📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition
#多模态模型 #情感识别 #对比学习 #鲁棒性
✅ 7.5/10 | 前25% | #情感识别 | #对比学习 | #多模态模型 #鲁棒性
学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高
👥 作者与机构
- 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院)
- 通讯作者:Yingxue Gao*(湖南大学计算机科学与电子工程学院)
- 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院)、Zhijie Yu(未说明)、Yong Wei(未说明)、Bo Li(未说明)、Yingxue Gao(湖南大学计算机科学与电子工程学院)
💡 毒舌点评
这篇论文最大的亮点在于其问题洞察和框架设计——将模糊的“模态缺失鲁棒性”问题,转化为对“显著”与“细微”情感表征的显式解耦与利用,MHDW机制对此提供了巧妙的工程实现。短板在于,其生成模块(GM)采用简单的1D卷积聚合可用模态信息来“补全”缺失模态,这一假设(缺失模态信息可由其他模态线性合成)可能过于理想,在更极端或语义不一致的缺失场景下其有效性值得怀疑,论文对此缺乏深入分析。
📌 核心摘要
- 问题:多模态情感识别(MER)在实际部署中常面临模态缺失问题(如传感器故障),导致关键情感信号(尤其是微妙线索)丢失或模糊。现有注意力方法易受主导但无关信号干扰,难以捕获细微但有辨别力的线索。
- 方法核心:提出DSSR(解耦显著与细微表征)两阶段框架。第一阶段,通过动态对比学习在完整模态数据上训练通用编码器,提取跨模态不变的“显著”情感表征。第二阶段,针对缺失模态场景,先利用轻量生成模块补全缺失模态特征;然后,将显著表征作为自适应提示,通过多头动态加权(MHDW)机制,在多个子空间中评估并选择性地增强各模态的“细微”情感表征。
- 创新点:相较于现有直接融合或恢复缺失模态的方法,DSSR首次将情感表征显式分解为“显著”和“细微”两部分,并设计了针对性的学习机制(动态对比学习提取显著表征,MHDW增强细微表征)来分别处理,框架设计新颖。
- 主要实验结果:在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集的多种模态缺失场景(如仅声学、仅文本、缺两模态等)下,DSSR整体性能达到了SOTA。例如,在CMU-MOSI上,平均准确率/F1为75.86%/75.05%,优于次优方法P-RMF(76.71%/未提供)。消融实验证实,去除MHDW模块导致性能下降最大(如CMU-MOSI平均准确率下降2.82%)。
- 实际意义:该方法提高了MER系统在传感器故障、数据传输不完整等现实挑战下的可靠性,增强了其在人机交互、情感计算等应用中的实用性。
- 主要局限性:生成模块(GM)的补全能力依赖于其他模态的“线性聚合”假设,其对于复杂或语义冲突的缺失情况可能效果有限,论文未对此进行深入探讨和验证。
🏗️ 模型架构
DSSR是一个两阶段框架,其整体架构如图1所示。
DSSR整体架构图] (注:由于无法直接访问外部图片链接,此处根据论文描述和图1标识进行说明。图1展示了完整的两阶段流程。)
第一阶段:显著情感表征提取
- 输入:对于一段包含L个话语的对话,分别提取声学(a)、文本(t)、视觉(v)模态的特征 (X_m),投影到共享的d维空间得到 (H_m)。
- 组件:通用编码器 (E_g)(一个通用的序列编码器)。
- 流程:(H_m) 输入 (E_g),输出各模态的显著情感表征 (Z_m = E_g(H_m))。
- 关键机制:动态对比学习。该机制在训练时,首先保留预测置信度最高的前50%样本作为可靠子集,然后用指数移动平均(EMA)更新每个情感类别的原型向量 (c_j^m)。最终,通过一个动态对比损失(公式4)对齐样本表征与对应类别原型,同时拉远不同类别样本。损失函数中引入了置信度感知缩放因子 (\beta)(公式5),对距离原型近的样本强对齐,对距离远的样本弱调整。
- 目标:使 (E_g) 学习到跨模态、鲁棒的显著情感信号(如笑声-快乐、语调低沉-悲伤),即使在模态缺失场景下也能稳定提取。
第二阶段:细微情感表征强化
- 输入:在测试或训练第二阶段时,若存在缺失模态,则利用 生成模块(GM) 进行特征补全。GM通过一个简单的1D卷积网络,将可用模态特征聚合(取平均)后生成缺失模态的特征 (\tilde{H}_m)(公式6)。之后,所有模态(包括补全后的)特征 (H_m) 作为输入。
- 组件:冻结的通用编码器 (E_g)、各模态专属编码器 (E_m^s)、多头动态加权(MHDW)模块、路由器(Router)。
- 流程:
- 补全后的特征 (H_m) 分别输入冻结的 (E_g) 和对应的 (E_m^s)。(E_g) 再次提取显著表征 (Z_m)。(E_m^s) 提取各模态的细微情感表征候选 (S_m = E_m^s(\text{LN}(H_m)))。
- MHDW模块(图1左下详细展示):这是第二阶段的核心。它接收 (S_m) 和 (Z_m)。首先,通过不同的投影矩阵 ({W_m^k}_{k=1}^h) 将 (S_m) 映射到h个不同的子空间,得到h个子表征 (S_m W_m^k)。
- 重构与评分:对于每个头k,将子表征 (S_m W_m^k) 与显著表征 (Z_m) 在通道维度拼接(应用梯度阻断),送入一个MLP得到重构特征 (R_m^k)。通过比较 (R_m^k) 与原始输入特征 (H_m) 的相似度(使用温度控制的softmax归一化),为每个头分配一个权重 (w_m^k)(公式9)。重构质量越高的头,权重越大。
- 表征增强:增强后的细微表征 (E_m) 是各头子表征 (S_m W_m^k) 的加权和(公式10)。直观理解,MHDW机制在评估哪个子空间能最好地利用显著信息来“理解”当前模态的细微情感线索。
- 融合与分类:最终,将所有模态的显著表征 (Z_m) 和增强后的细微表征 (E_m) 拼接,通过一个路由器(Router)进行动态加权融合,得到融合表征 (U),最后通过全连接层输出情感预测。
- 关键设计选择:
- 两阶段解耦:将学习分解为先抓“显著共性”,再挖“细微个性”。
- MHDW的重构目标:迫使细微表征与原始输入一致,从而确保其携带了模态特有但又被显著信息引导的有效情感信息。
- 生成模块的轻量化:避免了复杂生成模型(如GAN、扩散模型)带来的计算开销和训练不稳定。
💡 核心创新点
- 情感表征的显式解耦:提出将情感信号分解为“显著”(Salient,如直接表情、语气)和“细微”(Subtle,如上下文暗示、反讽语气)两部分,并进行独立建模。之前的方法通常直接处理融合表征或单模态表征,未对此进行显式区分。
- 动态对比学习用于显著表征提取:创新性地设计了动态对比损失,通过置信度筛选和EMA原型更新,在完整数据上训练出鲁棒的通用编码器,为后续阶段提供稳定的“锚点”(即显著表征提示)。这比传统的静态对比学习更适应情感数据的噪声和多样性。
- 多头动态加权(MHDW)机制:这是一个新颖的自适应模块。它利用显著表征作为提示,通过重构目标来评估多个细微表征子空间的质量,并动态加权选择。这解决了在模态缺失时,如何从不确定、可能嘈杂的候选细微信号中挑选出最可靠部分的问题。
- 两阶段训练范式与轻量生成模块:第一阶段专注于学习通用显著表征,第二阶段专注于在缺失场景下增强细微表征。结合一个极简的生成模块进行模态补全,使整个框架在保持高效的同时,对缺失模态具有适应性。
🔬 细节详述
- 训练数据:使用三个标准基准数据集:CMU-MOSI(2199段视频片段,情感二分类)、CMU-MOSEI(22856个话语,情感二分类)、IEMOCAP(12小时,4类情感分类)。论文未详细说明具体预处理和数据增强方法,仅提及遵循先前工作[13, 22, 32]。
- 损失函数:
- 第一阶段:总损失 (ℓ_{stage1} = ℓ_{task1} + ℓ_{cons})。(ℓ_{task1}) 为分类损失(交叉熵或MSE)。(ℓ_{cons}) 为动态对比损失(公式4)。
- 第二阶段:总损失 (ℓ_{stage2} = ℓ_{task2} + ℓ_{rec})。(ℓ_{task2}) 为分类损失。(ℓ_{rec}) 为MHDW的重构损失(MSE,公式12),用于监督MHDW模块。
- 训练策略:
- 优化器:Adam。
- 学习率与批大小:IEMOCAP: lr=2.5e-4, batch=16;MOSI: lr=2e-4, batch=32;MOSEI: lr=5e-5, batch=32。
- Dropout率:0.5。
- 训练轮数/步数:论文未具体说明。
- 关键超参数:
- MHDW的头数h:论文未明确给出具体值。
- 对比学习温度τ:未说明。
- 置信度筛选比例:前50%。
- EMA平滑因子α:未说明。
- 训练硬件:论文中未提及。
- 推理细节:对于缺失模态,使用生成模块补全特征后进行前向传播。路由器的动态加权机制在推理时同样生效。
- 正则化:使用了Dropout(率0.5)和层归一化(LN)。
📊 实验结果
主要对比实验结果(表1) 论文在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上,与多种SOTA方法(如MoMKE, P-RMF等)在7种测试条件(6种缺失场景+1种全模态)下进行了对比。关键数据如下表所示:
CMU-MOSI (Accuracy / F1)
| 模型 | {a} | {t} | {v} | {a, v} | {a, t} | {t, v} | 平均 | {a,t,v} |
|---|---|---|---|---|---|---|---|---|
| MoMKE [22] | 63.19/58.61 | 86.59/86.52 | 63.35/63.34 | 64.04/64.66 | 87.20/87.17 | 87.04/87.00 | 75.24/74.55 | 87.96/87.89 |
| P-RMF [26] | -/71.44 | -/81.36 | -/70.32 | -/73.11 | -/82.10 | -/81.94 | -/76.71 | -/84.37 |
| DSSR (Ours) | 62.50/57.63 | 87.37/87.33 | 64.65/64.77 | 64.96/65.16 | 87.70/87.46 | 87.98/87.95 | 75.86/75.05 | 88.90/88.78 |
CMU-MOSEI (Accuracy / F1)
| 模型 | {a} | {t} | {v} | {a, v} | {a, t} | {t, v} | 平均 | {a,t,v} |
|---|---|---|---|---|---|---|---|---|
| MoMKE [22] | 72.56/71.03 | 86.46/86.43 | 70.12/70.23 | 73.34/71.82 | 86.68/86.61 | 86.79/86.69 | 79.33/78.80 | 87.12/87.03 |
| P-RMF [26] | -/75.91 | -/81.91 | -/73.19 | -/76.88 | -/84.61 | -/85.17 | -/79.61 | -/85.48 |
| DSSR (Ours) | 71.05/70.81 | 87.60/87.47 | 70.88/70.17 | 71.34/71.05 | 87.80/87.63 | 87.90/87.83 | 79.43/79.16 | 87.94/87.87 |
IEMOCAP (WA / UA)
| 模型 | {a} | {t} | {v} | {a, v} | {a, t} | {t, v} | 平均 | {a,t,v} |
|---|---|---|---|---|---|---|---|---|
| MoMKE [22] | 70.32/71.38 | 77.82/78.37 | 58.60/54.70 | 68.85/67.65 | 79.89/79.53 | 77.87/77.84 | 72.23/71.58 | 80.13/79.99 |
| DSSR (Ours) | 70.65/71.46 | 79.58/79.73 | 59.33/55.96 | 69.34/68.33 | 81.08/81.59 | 80.74/81.17 | 73.45/73.04 | 81.52/82.35 |
结论:DSSR在三个数据集的整体��均性能上均取得了最佳或次佳的结果,尤其在最具挑战性的单模态缺失(如仅声学{a}或仅视觉{v})场景下优势明显。
消融实验结果(表2) 对关键组件MHDW、动态对比学习(DCL)、生成模块(GM)进行消融。关键发现:
- MHDW贡献最大:移除MHDW后,性能下降最显著(CMU-MOSI平均准确率↓2.82%, F1↓2.04%;CMU-MOSEI平均准确率↓1.34%, F1↓1.32%;IEMOCAP平均WA↓2.12%, UA↓2.42%)。这表明自适应增强细微表征是核心。
- DCL和GM也重要:移除DCL或GM也会导致不同程度的性能下降,证明了它们各自在提取稳定显著表征和处理缺失模态时的必要性。
案例分析(图2) 案例分析图] (注:根据图2标识进行说明。) 图2展示了一段IEMOCAP对话的推理过程。左侧是带情感标签的对话轮次,右侧是一个堆叠条形图,显示DSSR(启用MHDW)和DSSR(无MHDW)在每轮对话中分配给“显著特征”和“细微特征”的权重。分析表明:
- 完整模型(DSSR)能够自适应地给“细微特征”分配更高权重,从而在诸如讽刺(Sarcastic tone)、困惑(Puzzled tone)等需要理解深层语义的轮次中做出正确预测。
- 缺少MHDW的变体则倾向于错误分配权重,导致误分类。这直观验证了MHDW机制在利用细微情感线索上的有效性。
⚖️ 评分理由
- 学术质量(6.5/7):论文动机明确,技术方案(解耦表征+动态学习机制)具有创新性和合理性。实验设计全面,覆盖了多种缺失场景、多个数据集和详尽的消融研究,结果具有说服力。主要扣分点在于生成模块(GM)的设计相对简单,其“线性聚合”假设的普适性未被深入讨论,可能在更复杂的现实缺失场景下存在局限性。
- 选题价值(2.0/2):“模态缺失”是多模态学习走向实际应用必须解决的工程难题,该研究直接针对此痛点,提出了一个系统性的解决方案,对推动情感识别技术的实用化有积极意义,价值高。
- 开源与复现加成(0.0/1):论文提供了代码仓库链接,这对于复现至关重要。但论文正文未提供模型权重、详细配置、训练日志等关键复现信息。代码仓库本身的内容质量未知(论文未描述),因此复现便利性存在不确定性,暂不加分。
🔗 开源详情
- 代码:论文中提供了代码仓库链接:https://github.com/YYYYuZJ/DSSR.git。
- 模型权重:论文中未提及是否公开预训练模型权重。
- 数据集:使用的是公开的标准基准数据集(CMU-MOSI, CMU-MOSEI, IEMOCAP),如何获取未在论文中说明,通常需遵循各数据集官方协议。
- Demo:论文中未提及提供在线演示。
- 复现材料:论文中提供了一些实现细节(优化器、学习率、批大小、Dropout率),但缺乏训练轮数、具体硬件、关键超参数(如MHDW的头数h)的详细说明,也未提及是否提供训练好的检查点、详细配置文件或附录说明。
- 论文中引用的开源项目:论文未明确列出其代码依赖的具体开源工具或模型。根据架构图推测,可能使用了预训练的wav2vec、DeBERTa、MA-Net作为各模态的特征提取器,但未在文中引用。