Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

Fri, 08 May 2026 00:00:00 +0000

📄 Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

#语音情感识别 #多模态模型 #对比学习 #知识蒸馏 #缺失模态处理

学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中

👥 作者与机构

第一作者：Yan Zhuang（电子科技大学）
通讯作者：Jiawen Deng（电子科技大学），Fuji Ren（电子科技大学、深圳先进技术研究院）
作者列表：Yan Zhuang（电子科技大学）、Minhao Liu（电子科技大学，深圳先进技术研究院）、Yanru Zhang（电子科技大学，深圳先进技术研究院）、Jiawen Deng（电子科技大学）、Fuji Ren（电子科技大学，深圳先进技术研究院）

💡 毒舌点评

论文的亮点在于将“模态缺失”问题转化为“表示一致性”问题，并设计了优雅的对比学习机制（MCB-CL）来显式地对齐“相同语义、相同模态组合”的样本，直击现有方法痛点。然而，论文声称解决了“跨模态组合不一致”（如图1b），但SUGR模块主要处理的是“预测不确定性”，通过不确定性差异动态调整损失权重，其作用是让模型更关注那些因缺失导致预测变差的样本，而非在表示空间中直接约束同一语义在不同模态组合下的对齐，这部分论证略显间接；此外，方法高度依赖教师模型，在教师本身存在语言偏见时，学生模型的“鲁棒性”可能部分源于对偏见的抑制（如附录A.5.8所示），而非纯粹的多模态融合能力提升。

📌 核心摘要

要解决什么问题：多模态情感识别（MER）在实际场景中面临模态缺失与异构性问题，导致同一情感语义在不同可用模态组合下产生表示不一致和预测不稳定（图1展示了组内与跨组不一致现象）。
方法核心是什么：提出了MCUR框架，它是一个基于知识蒸馏的两阶段端到端框架。其核心包含两个模块：（1）模态组合与类别联合对比学习（MCB-CL），通过贝叶斯分解引入对比损失，鼓励相同情感类别且相同模态组合的样本在表示空间中聚集；（2）样本级不确定性引导正则化（SUGR），通过计算教师与学生模型预测的不确定性差异，动态调整任务损失和蒸馏损失的权重，使模型更关注不确定性高的样本。
与已有方法相比新在哪里：不同于以往侧重模态重建或笼统知识蒸馏的方法，MCUR将问题聚焦于表示空间结构的约束。MCB-CL显式地将模态组合（c_i）信息引入对比学习目标，实现了更细粒度的监督；SUGR则利用不确定性差异进行自适应样本加权，而非对所有缺失场景一视同仁。
主要实验结果如何：在MOSI、MOSEI、IEMOCAP三个基准数据集上，MCUR在14种模态缺失场景（7种固定缺失，7种随机缺失）的平均性能均优于基线方法。平均F1分数提升显著：在MOSI上提升2.2%，MOSEI上提升2.67%，IEMOCAP上提升4.37%。消融实验表明，移除MCB-CL或SUGR模块中的不确定性项会导致平均ACC和F1下降超过1个点。不确定性分析（图3）显示，加入MCB-CL能有效降低预测的Brier分数和NLL，尤其在模态表征较弱的场景下（如仅V、A输入）。
实际意义是什么：该工作提升了MER系统在模态部分缺失或不可靠时的鲁棒性和预测稳定性，使其更适用于真实世界的动态、异构环境（如用户设备差异、传感器临时失效）。
主要局限性是什么：实验基于对缺失模态的模拟（随机丢弃），可能与真实世界中模态降质或丢失的复杂性存在差距；方法依赖一个预先训练好的教师模型，增加了训练成本和部署复杂度；在极端缺失（高缺失率）或噪声与缺失并存的场景下，鲁棒性有待进一步验证（论文在附录A.5.6中进行了初步验证）。

🔗 开源详情

代码：论文中未提及代码链接（论文中多次提到“使用官方实现”或“重新实现”其他方法，但未提供作者自己方法“MCUR”的代码仓库地址）。
模型权重：论文中未提及（未提供预训练模型或检查点的下载链接）。
数据集：论文中使用了三个公开的多模态情感识别数据集，但未提供具体获取链接。论文中提及的数据集名称及通常获取方式如下：
- MOSI 数据集：常通过 CMU-Multimodal SDK 获取。
- MOSEI 数据集：常通过 CMU-Multimodal SDK 获取。
- IEMOCAP 数据集：需通过其官网 USC IEMOCAP 申请获取。
Demo：论文中未提及。
复现材料：论文在附录 A.2 “Additional Implementation Details” 中提供了详细的复现信息，包括：
- 训练配置：使用了 AdamW 和 Adam 优化器，详细的学习率、随机种子、超参数搜索范围等。
- 模型结构：提供了教师模型（Figure 4）和 MCUR 框架（Figure 2）的结构图。
- 训练策略：描述了教师模型的预训练方法、学生模型的训练损失函数以及模拟模态缺失的方法。
- 基线复现细节：说明了如何公平复现所有对比方法。
- 额外分析：提供了训练损失收敛分析（Figure 5）和表示可视化（Figure 6）。
论文中引用的开源项目：
1. BERT：论文中使用了预训练的 BERT 嵌入处理语言模态。链接：https://github.com/google-research/bert
2. Facet toolkit：用于提取视频（人脸）特征。论文中未提供链接（通常指 iMotions 公司的 Facet 模块，需商业授权）。
3. COVAREP toolkit：用于提取音频特征。链接：http://covarep.github.io/covarep/
4. Perceiver：论文中使用的 Perceiver 编码器的实现参考了以下链接（论文中列出了编号[13, 22, 41, 45]，对应不同的Perceiver变体实现）。通用实现可参考：https://github.com/lucidrains/perceiver-pytorch
5. Variational Information Bottleneck (VIB)：模型中使用的关键组件。论文中列出了参考文献[1, 8, 16, 29, 36]，其中[8]的原始实现可参考：https://github.com/HIPS/neural-tangents (VIB的原始论文作者之一)。
6. Decoupled Knowledge Distillation (DKD)：SUGR模块中用于分类任务的知识蒸馏方法。链接：https://github.com/megvii-research/mdistiller (包含了DKD的实现)。
7. 基线方法：论文对比了以下方法的官方或公开实现（论文中提到使用了“官方实现”）：
  - CorrKD：论文中提到官方代码未公开，作者根据论文描述重新实现。
  - MMANet：论文中提到了官方实现，但未给出具体链接。通常可能在：https://github.com/DAMO-NLP-SG/MMANet (此为推测，论文未明确给出)。
  - MPLMM、IMDer、LNLN：论文中提及了这些方法，但未提供其官方代码链接。
8. 其他依赖：论文在实现细节中提到了 PyTorch 和 CUDA 11.5。链接：https://github.com/pytorch/pytorch。

🏗️ 方法概述和架构

MCUR是一个基于知识蒸馏（KD）的两阶段端到端框架，旨在训练一个对模态缺失鲁棒的学生模型。整体流程为：首先，使用完整模态数据训练一个教师模型；然后，在训练学生模型时，模拟各种模态缺失场景，并通过MCB-CL和SUGR两个核心模块，引导学生学习与教师一致且对缺失鲁棒的表示。

图2展示了MCUR的整体架构。数据流始于多模态输入，经过教师和学生两个并行分支。每个分支先通过模态特定的Perceiver编码器处理各模态特征，再经Transformer编码器和MLP融合，最后通过变分信息瓶颈（VIB）得到融合嵌入（E）。这两个嵌入（E^s, E^t）被送入MCB-CL模块进行对齐。同时，两个模型的分类器输出（y^s, y^t）与真实标签（y）一起被送入SUGR模块，计算损失并反向传播以更新学生模型参数。

主要组件详解：

问题定义与数据预处理：
- 问题定义：给定包含m个模态的数据集，每个样本至少有一个模态可用（通过δ_p向量指示模态存在性）。目标是在各种模态缺失组合下训练一个鲁棒的预测模型。
- 预处理：所有模态首先通过一个1D卷积层（核大小为3）进行标准化，将每个模态特征X_p转换为统一维度和序列长度的表示X_p^w ∈ ℝ^{T×D}，其中w∈{s,t}表示学生或教师模型。
编码模块（共享架构，参数不同）：
- 功能：将预处理后的各模态特征进行特定编码。
- 实现：每个模态通过一个模态特定的Perceiver编码器（P_j^w）。该编码器使用可学习的提示作为查询，通过交叉注意力机制聚合输入模态特征的信息，以数据驱动的方式关注最相关的部分。
- 输入输出：输入是标准化后的各模态特征X_p^w，输出是每个模态的编码表示P_p^w。
融合模块（F^w）：
- 功能：将来自不同模态的编码表示融合成一个统一的嵌入向量。
- 实现：由一个Transformer编码器和一个两层MLP构成。Transformer编码器允许不同模态的表示之间进行交互和信息交换。随后，MLP进一步处理融合后的特征E_f^w。
- 输入输出：输入是各模态的编码表示序列[P_1^w, …, P_m^w]，输出是初步的融合表示E_f^w。
变分信息瓶颈（VIB）：
- 功能：作为融合模块的最后一部分，用于压缩融合表示，减少冗余信息和噪声，鼓励模型学习只对预测任务最相关的信息。
- 实现：通过引入一个高斯分布来建模从融合表示（E_f^w）到最终嵌入（E^w）的映射。训练目标包括最小化任务损失和KL散度损失，使该分布接近标准正态分布，从而实现信息压缩。最终通过重参数化技巧得到嵌入E^w。其损失函数为：ℒ_VIB^w = ℒ_TASK^w(y^w, y) + β KL(p(e^w|e_f^w) || 𝒩(0, I))。
- 输入输出：输入是融合表示E_f^w，输出是压缩后的嵌入向量E^w。
模态组合与类别联合对比学习（MCB-CL）模块：
- 功能：这是论文的核心创新之一，旨在通过对比学习显式地约束表示空间，解决“组内不一致”问题。
- 实现：基于贝叶斯公式将条件概率p(k|x_i)分解为三个项（公式1）。作者对每一项应用监督对比学习进行参数化：
  - p(c_i|x_i)：识别与x_i具有相同模态组合的样本（公式2）。正样本对是同组合的所有样本。
  - p(k|c_i, x_i)：在相同模态组合内，识别与x_i具有相同情感类别的样本（公式3）。正样本对是同组合且同类别的样本。
  - p(c_i|x_i, k)：识别与x_i具有相同情感类别但可能不同模态组合的样本（公式4）。这可以看作一种类别级的正则化。
- 最终的MCB-CL损失（公式5）是这三项负对数似然的加权和（通过超参数μ1, μ2控制）。同时，为保持表示一致性，还加入了学生与教师嵌入的均方误差损失ℒ_i^MSE = ||E_i^s - E_i^t||²（公式6）。
- 输入输出：输入是学生模型的融合嵌入E^s、模态组合标签c_i和情感类别标签k。输出是对比学习损失L_CL^s和表示对齐损失L^MSE。
样本级不确定性引导正则化（SUGR）模块：
- 功能：动态调整训练权重，使模型更关注那些因模态缺失导致预测不确定性显著增加的样本，旨在缓解“跨组合不一致”和预测不稳定问题。
- 实现：
  - 首先，定义不确定性度量H(y^w)。对于分类任务，使用预测概率的熵（公式7）；对于回归任务，使用预测值与真实值的绝对误差平方（即MSE，公式8）。
  - 然后，计算绝对不确定性差异L_i^Uncer = |H(y_i^t) - H(y_i^s)|（公式9），表示学生相对于教师不确定性的增加量。该值越大，表明该样本因模态缺失带来的不确定性影响越大。结合任务损失L_TASK^s（分类为交叉熵，回归为MAE）和Logits蒸馏损失L_i^Logits（分类使用DKD，回归使用MSE），SUGR损失定义为：L_i^Sugr = L_i^Uncer (L_TASK,i^s + L_i^Logits)（公式14）。
- 输入输出：输入是教师和学生的预测y^t, y^s以及真实标签y。输出是加权后的SUGR损失L^Sugr。

组件间数据流与交互：教师模型参数冻结，仅提供嵌入E^t和预测y^t作为监督信号。学生模型是训练的主体。MCB-CL作用于学生模型的嵌入E^s，通过对比约束直接优化其表示空间结构。SUGR则作用于学生模型的输出层，根据其与教师输出的不确定性差异来调整损失梯度。两者共同优化总损失（公式15）：L_all = γ L_CL^s + β L_VIB^s + L^MSE + ζ L^Sugr。

关键设计选择及动机：作者选择KD框架是因为它能直接指导学生学习融合表示，而非先重建再融合。引入MCB-CL的动机是现有方法（包括KD和CL）未显式约束在特定模态组合下的表示一致性。采用SUGR的动机是不同样本因缺失模态导致的预测困难程度不同，应区别对待。

💡 核心创新点

问题视角转换：将多模态情感识别中的模态缺失问题，从“信息重建/知识迁移”提升为“表示空间一致性维护”问题，并明确区分了“组内不一致”和“跨组不一致”两种形式。
模态组合感知的对比学习（MCB-CL）：提出了一种新颖的对比学习机制，不仅考虑类别信息，还显式地将模态组合（即哪些模态可用）作为一个关键变量纳入对比目标。通过贝叶斯分解，将“识别同组合样本”和“在同组合内识别同类别样本”作为独立的对比任务，实现了对表示空间更精细的结构约束。
不确定性驱动的自适应训练（SUGR）：设计了一种利用教师-学生预测不确定性差异来自适应加权样本损失的机制。这允许模型自动关注那些因模态缺失而导致预测信心大幅下降的“困难样本”，使训练过程更聚焦于缓解预测不稳定。
模块的有效性：通过将MCB-CL和SUGR模块应用于CorrKD和MMANet等基线模型，并展示其带来的性能提升（表4），证明了这些模块的有效性和一定的通用性。

📊 实验结果

主要对比实验结果（表1）：论文在MOSI、MOSEI、IEMOCAP三个数据集上，与5个SOTA方法（3个重建方法，2个KD��法）在14种模态缺失场景下进行了对比。MCUR在几乎所有场景下均取得了最优性能。

数据集	方法	平均ACC	平均F1	备注
MOSEI	CorrKD	76.54	73.88	基线
	MPLMM	75.72	72.43	基线
	IMDer	75.26	72.01	基线
	LNLN	76.26	72.52	基线
	MMANet	76.17	74.13	基线
	MCUR (Ours)	77.23	76.80	最佳
IEMOCAP	CorrKD	76.82	73.28	基线
	MPLMM	75.05	68.78	基线
	IMDer	75.21	66.15	基线
	LNLN	76.90	72.54	基线
	MMANet	74.47	70.13	基线
	MCUR (Ours)	79.69	77.65	最佳
MOSI	CorrKD	70.10	68.82	基线（见附录表5）
	MPLMM	66.24	62.06	基线
	IMDer	66.80	62.40	基线
	LNLN	67.05	62.78	基线
	MMANet	71.98	71.79	基线
	MCUR (Ours)	74.46	73.99	最佳

论文摘要中声称的提升：平均F1增益在MOSI上2.2%，MOSEI上2.67%，IEMOCAP上4.37%。表1和附录表5的数据支持这一结论。

消融实验结果（表2）：移除任何一个核心损失项都会导致性能显著下降，验证了各组件的必要性。关键发现：

移除L_CL^s（MCB-CL）或L_Uncer（SUGR中的不确定性项）导致的性能下降最为严重。
在IEMOCAP数据集上，移除L_Uncer造成的下降最大（ACC/F1: 76.6/75.2 vs 完整模型 79.7/77.7），表明不确定性加权对多分类任务尤为重要。

数据集	模型	平均 ACC/F1	Brier ↓	NLL ↓
MOSEI	Full	77.2/76.8	0.179	0.541
	w/o ℒ_CL^s	75.4/75.5	0.183	0.547
	w/o ℒ_Uncer	75.9/74.4	0.182	0.545
	w/o ℒ_Logits	76.3/75.8	0.182	0.545
	w/o ℒ_MSE	76.3/75.8	0.181	0.543
IEMOCAP	Full	79.7/77.7	0.159	0.492
	w/o ℒ_CL^s	77.9/75.1	0.174	0.530
	w/o ℒ_Uncer	76.6/75.2	0.186	0.556
	w/o ℒ_Logits	78.8/76.5	0.175	0.532
	w/o ℒ_MSE	78.4/75.5	0.173	0.525
MOSI	Full	74.5/74.0	-	-
	w/o ℒ_CL^s	71.6/70.5	-	-
	w/o ℒ_Uncer	70.6/70.5	-	-
	w/o ℒ_Logits	71.5/71.4	-	-
	w/o ℒ_MSE	72.7/71.8	-	-

不确定性分析（表2，图3）：

图3展示了在不同缺失率（MR）和固定缺失模态下，使用Brier分数和NLL度量的预测不确定性。实线（完整MCUR）普遍低于虚线（无MCB-CL），证明MCB-CL有效降低了表示和预测的不确定性，尤其是在表征较弱的模态组合（如仅V或仅A）上。
表2也量化了不确定性：完整MCUR模型的Brier分数和NLL在所有变体中均为最低，再次验证了其提升预测稳定性和可靠性的效果。

图3直观地展示了MCB-CL对预测不确定性的影响。随着缺失率（MR）增加，不确定性普遍上升（图3a, 3b）。对于固定缺失模态（图3c, 3d），不同模态的缺失导致的不确定性不同，例如在MOSEI上缺少“L”模态时不确定性远高于缺少“V”或“A”。在所有情况下，加入MCB-CL（实线）均比不加入（虚线）能获得更低的不确定性，尤其在原本不确定性较高的场景下（如仅V，仅A，A+V）。

对比学习形式消融（表3）：对比了传统CL、SupCon-CL和本论文的MCB-CL。结果表明，同时考虑模态组合和类别的MCB-CL（Vanilla）在两个数据集上均优于其他形式，证明了其设计的有效性。

数据集	Vanilla (Ours)	Traditional	1-instance	SupCon
MOSI	74.46/73.99	71.47/70.72	71.49/71.05	73.72/68.28
MOSEI	77.23/76.80	74.74/74.39	75.38/75.27	75.99/75.85

可迁移性分析（表4）：将MCB-CL和SUGR模块集成到CorrKD和MMANet中，均能带来性能提升，在IEMOCAP上提升最高可达4.54%，体现了模块的通用性。

MOSEI	基线	+MCB-CL	+SUGR	IEMOCAP	基线	+MCB-CL	+SUGR
CorrKD	76.5/73.9	76.6/74.9	76.8/75.3	CorrKD	76.8/73.3	78.1/74.8	77.9/74.8
MMANet	76.2/74.1	76.5/75.3	76.3/75.1	MMANet	74.5/70.1	78.1/74.3	78.1/74.7

图6展示了在IEMOCAP数据集上，当缺失率MR=0.7（每个样本仅有一个模态）时，不同模型变体学习到的表示的t-SNE可视化。(a) 去掉MCB-CL，表示聚类较为分散；(b) 去掉SUGR，表示分散最严重；(c) 完整的MCUR模型，表示形成了更紧凑、界限更清晰的聚类，尤其在同一情感类别内。这从视觉上证实了两个模块共同作用对于学习一致性表示的重要性。

🔬 细节详述

训练数据：使用了MOSI（2199片段）、MOSEI（22856片段）、IEMOCAP（4453片段）三个公开的多模态情感识别数据集。特征提取：语言使用BERT（MOSI/MOSEI）或GloVe（IEMOCAP）嵌入；视频使用Facet工具提取面部特征；音频使用COVAREP工具提取特征。数据预处理包括1D卷积标准化。
损失函数：总损失L_all由三部分加权构成：L_all = γ L_CL^s + β L_VIB^s + L^MSE + ζ L^Sugr。L^MSE是教师与学生嵌入的均方误差（公式6）。L_CL^s是MCB-CL损失（公式5）。L^Sugr是SUGR损失（公式14）。教师模型训练损失为L_all^t = L_TASK^t + β L_VIB^t。
训练策略：教师模型在全模态数据上训练，学生模型训练时模拟模态缺失（从7种预定义组合中均匀采样）。优化器：MOSI/MOSEI使用AdamW，IEMOCAP使用Adam。学习率在{1e-5, 2e-5, 4e-5, 8e-4, 1e-3}中搜索。训练轮次未明确说明，但提到在单张RTX 3090 GPU上，MOSEI数据集训练100轮约需7660秒。
关键超参数：论文详细报告了搜索范围和最终选择：γ, ζ, β, μ1, μ2, τ等。例如，对于IEMOCAP，最终设置为学习率8e-4， α=0.2， β=0.01， γ=0.1， ζ=100， τ=0.2。
训练硬件：单张NVIDIA RTX 3090 GPU。
推理细节：论文未特别说明，应为标准前向传播。
正则化或稳定训练技巧：使用了VIB进行表示压缩；在MCB-CL中使用了温度参数τ和超参数μ1, μ2；SUGR本身就是一种正则化策略。

⚖️ 评分理由

学术质量：6.5/7：论文问题明确，方法设计逻辑自洽，MCB-CL和SUGR两个模块均有理论动机和实验验证。实验设计全面，对比基线充分，包含消融、可视化、不确定性分析等，结果具有说服力。扣分点在于核心理论推导（公式1的贝叶斯分解）与对比学习参数化实现的联系在文中论证略显间接，且整体创新是现有技术的巧妙组合与应用，而非基础理论或架构的突破。
选题价值：2.0/2：多模态情感识别是人机交互的关键技术，而模态缺失是现实部署中的核心挑战。论文直击该痛点，研究具有明确的应用前景和学术价值，与音频/语音处理领域紧密相关。
开源与复现加成：-0.5/1：这是最大的短板。论文未提供任何代码、模型或训练好的检查点。尽管附录中提供了详细的超参数、训练设置和基线复现细节，对于领域内研究者来说，根据这些描述重新实现算法是可行的，但缺失官方代码极大地增加了复现的难度和时间成本，降低了工作的即时可用性和可验证性。

← 返回 2026-05-08 论文速递

缺失模态处理 on 语音/音频论文速递