📄 Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition
#语音生物标志物 #对比学习 #领域适应 #多模态模型
✅ 7.0/10 | 前25% | #语音生物标志物 | #对比学习 | #领域适应 #多模态模型
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中
👥 作者与机构
- 第一作者:Lei Jin(东南大学计算机科学与工程学院)
- 通讯作者:Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院)
- 作者列表:Lei Jin(东南大学计算机科学与工程学院), Zhuochang Xu(未说明), Yudong Zhang(未说明), Shijie Wang(未说明), Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院)
💡 毒舌点评
亮点:针对抑郁症识别中数据稀缺和领域偏移的核心痛点,提出了一个结构清晰、技术整合度高的双对比学习框架,将无监督跨模态对齐与有监督伪标签优化有机结合,逻辑自洽。短板:虽然方法有效,但核心组件(对比学习、伪标签)均非全新,更像是现有技术的精巧组合与适配;且论文未提供代码或训练细节,对于一篇发表在ICASSP(信号处理会议)上的工作,其音频/语音处理深度和可复现性细节略显不足。
📌 核心摘要
这篇论文旨在解决双模态(音频与视频)抑郁症识别任务中标注数据稀缺以及跨数据集(跨语言、设备、人群)存在领域偏移的问题。为此,作者提出了一个名为DuCL的双对比学习半监督领域适应框架。该框架的核心是两个模块:1) 语义一致性加权无监督对比学习(SCW-UCL),利用样本间的语义相似度来抑制假负例,增强音频与视频模态间的通用表征对齐;2) 联合伪标签加权有监督对比学习(JPW-SCL),通过融合分类器预测和样本相似性信息生成更可靠的伪标签,并利用置信度加权来降低噪声和缓解领域偏移。与已有方法相比,其创新点在于将两种互补的对比学习策略系统性地整合,以更充分、可靠地利用大量无标签数据。实验在三个公开数据集(AVEC 2014, CMDC, DAIC-WOZ)上进行,结果表明该方法在准确率���F1分数等指标上一致性地优于DANN、MME、CDAC、CLDA等基线方法,特别是在跨语言迁移(如DAIC-WOZ到AVEC2014)任务中取得了最佳的F1分数(0.52)。该研究的实际意义在于提升了自动化抑郁识别模型在真实临床场景下的鲁棒性和适用性。主要局限性是框架的性能可能高度依赖于伪标签的质量和相似度建模的准确性,且实验未探讨模型在更极端或更复杂的领域偏移下的表现。
🏗️ 模型架构
本文提出的DuCL(双对比学习)框架整体架构如图1所示。
模型以双模态数据作为输入:音频特征X(a)(来自log-Mel频谱图)和视频特征X(v)(来自二维人脸关键点)。架构主要由四个部分组成:
特征编码与相似度建模:
- 双分支编码器:使用两个独立的BiLSTM网络分别处理音频和视频序列特征,提取得到编码表示A和V。
- 共享嵌入空间:通过一个共享的投影层H将A和V映射到同一嵌入空间,并进行L2归一化,得到R(a)和R(v)。
- 相似度矩阵计算:定义了一个温度缩放的相似度函数Sim(p, q; τ)。分别计算音频模态内的相似度矩阵S(a)和视频模态内的S(v)。然后,将两者平均并经过行级softmax归一化,得到融合的样本相似度矩阵W,用于建模样本间的语义关系。
SCW-UCL(语义一致性加权无监督对比学习):
- 此模块旨在利用无标签数据学习跨模态不变特征。它使用对称化后的相似度矩阵$\tilde{W}$来计算语义一致性权重$\omega_{ij}$。
- 在对比学习中,同一实例的音频-视频对为正样本对,所有不同实例的对为负样本。通过权重$\omega_{ij}$对负样本进行降权,从而抑制那些语义相关但被错误视为负样本的情况(假负例),使得对比损失$L^{(d,d’)}_i$更加聚焦于真正无关的样本,增强了跨模态对齐的鲁棒性。
JPW-SCL(联合伪标签加权有监督对比学习):
- 此模块旨在为无标签的目标域样本生成可靠的伪标签,并利用有监督对比学习来减少噪声和域偏移。
- 伪标签生成:首先,利用已标注样本的信息和相似度矩阵W,计算每个无标签样本基于相似性的伪标签分布$p_{sim}$。同时,从分类头获得基于模型预测的伪标签分布$p_{cls}$。将两者在对数空间融合,得到更可靠的伪标签分布$p_{rel}$,并设置置信度阈值$\gamma_c \geq 0.7$来筛选可靠的伪标签$\hat{y}_u$。
- 置信度加权对比学习:对于有可靠伪标签的无标签样本,将其与其它域中同类别的样本视为正样本集,不同类别的样本视为负样本集。定义对比损失$L^s_i$,其中正样本的权重$\beta_i$对于有标签样本为1,对于无标签样本则为其伪标签的置信度$c_i$,从而降低低置信度伪标签的负面影响。
分类头:一个线性层,基于融合的双模态特征R(a)和R(v)进行预测,使用标准的交叉熵损失$L_{cls}$训练。
最终的总损失$L$是上述三个损失项($L_{ucl}$,$L_{scl}$,$L_{cls}$)的加权和,权重系数$\lambda_{ucl}, \lambda_{scl}, \lambda_{cls}$为经验设定。
💡 核心创新点
- 语义一致性加权无监督对比学习(SCW-UCL):针对传统对比学习中假负例问题,提出利用样本间的多模态相似度来显式地降低负样本的权重。这避免了盲目地将所有不同实例视为负样本,使得无监督学习得到的跨模态表征更具语义一致性,提升了领域泛化能力。
- 联合伪标签生成机制:不单独依赖分类器或相似性其中一种信息,而是将基于分类器预测的伪标签分布与基于有标签样本相似性的伪标签分布在对数空间进行融合。这种“联合”策略被认为能生成更稳定、更准确的伪标签,为后续的监督对比学习提供更可靠的基础。
- 置信度加权的监督对比学习(JPW-SCL):在有监督对比学习中,引入伪标签的置信度作为样本权重。这直接降低了噪声伪标签在对比损失中的贡献,使得模型能够更聚焦于高质量的监督信号,有效缓解了伪标签噪声带来的确认偏差问题。
- 针对抑郁症识别的领域适应框架整合:将上述两个创新模块系统地整合到一个面向音频-视频双模态抑郁症识别的半监督领域适应框架中,明确针对该任务数据稀缺和跨数据集偏移的核心挑战。
🔬 细节详述
- 训练数据:使用了三个公开数据集:AVEC 2014(德语,84个对象)、CMDC(中文,26 MDD,52 HC)、DAIC-WOZ(英语,56 MDD,133 HC)。每个数据集按8:1:1划分为训练、验证、测试集。为了模拟半监督设置,目标域训练集中仅有部分样本有标签(CMDC和AVEC2014为40%,DAIC-WOZ为10%)。未说明具体的预处理流程和数据增强方法。
- 损失函数:总损失公式为 $L = \lambda_{ucl}L_{ucl} + \lambda_{scl}L_{scl} + \lambda_{cls}L_{cls}$。$L_{ucl}$是SCW-UCL的对比损失(公式9),$L_{scl}$是JPW-SCL的置信度加权对比损失(公式14),$L_{cls}$是分类的交叉熵损失(公式15)。未说明损失权重$\lambda_{ucl}, \lambda_{scl}, \lambda_{cls}$的具体数值。
- 训练策略:未说明学习率、优化器、batch size、训练轮数/步数、warmup策略等细节。
- 关键超参数:提到了温度参数$\tau_u, \tau_s$、语义一致性权重控制参数$\kappa$、伪标签置信度阈值$\gamma_c \geq 0.7$。未说明这些超参数的具体取值和调优过程。模型架构的隐藏维度($d_a, d_v, d_r$)等也未给出。
- 训练硬件:未说明。
- 推理细节:未说明。
- 正则化或稳定训练技巧:除了置信度加权,未提及其他正则化技巧。L2归一化(公式2)本身有助于训练稳定。
📊 实验结果
论文在三个数据集间的跨域任务上进行了实验,对比了五种基线方法。主要结果如表1所示。
表1:不同迁移设置下的分类结果
| 目标域 (Tgt) | CMDC | DAIC-WOZ | AVEC2014 | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 方法 | 源域 (Src) | ACC | REC | PRE | F1 | 源域 (Src) | ACC | REC | PRE | F1 | 源域 (Src) | ACC |
| S+T | DAIC-WOZ (D) | 0.65 | 0.35 | 0.63 | 0.45 | AVEC (A) | 0.66 | 0.17 | 0.39 | 0.24 | CMDC (C) | 0.23 |
| DANN [15] | 0.47 | 0.06 | 0.50 | 0.10 | 0.40 | 0.83 | 0.32 | 0.46 | 0.50 | |||
| MME [14] | 0.92 | 0.94 | 0.86 | 0.90 | 0.63 | 0.19 | 0.34 | 0.24 | 0.36 | |||
| CDAC [11] | 0.33 | 0.44 | 0.29 | 0.35 | 0.51 | 0.51 | 0.31 | 0.39 | 0.50 | |||
| CLDA [12] | 0.48 | 0.06 | 0.52 | 0.11 | 0.63 | 0.16 | 0.32 | 0.21 | 0.50 | |||
| DuCL (Ours) | 0.96 | 0.90 | 0.99 | 0.95 | 0.54 | 0.80 | 0.39 | 0.52 | 0.49 | |||
| S+T | AVEC (A) | 0.82 | 0.56 | 0.99 | 0.72 | CMDC (C) | 0.48 | 0.15 | 0.16 | 0.16 | DAIC-WOZ (D) | 0.33 |
| DANN [15] | 0.38 | 0.81 | 0.38 | 0.52 | 0.42 | 0.78 | 0.32 | 0.46 | 0.58 | |||
| MME [14] | 0.91 | 1.00 | 0.82 | 0.90 | 0.55 | 0.23 | 0.26 | 0.24 | 0.55 | |||
| CDAC [11] | 0.39 | 0.86 | 0.39 | 0.53 | 0.47 | 0.64 | 0.32 | 0.42 | 0.54 | |||
| CLDA [12] | 0.38 | 0.81 | 0.38 | 0.52 | 0.60 | 0.25 | 0.30 | 0.28 | 0.58 | |||
| DuCL (Ours) | 0.98 | 0.98 | 0.97 | 0.97 | 0.67 | 0.23 | 0.42 | 0.30 | 0.54 |
主要发现:DuCL在大多数任务上取得了最佳或具有竞争力的F1分数。特别是在CMDC作为目标域的两个任务中,F1分别达到0.95和0.97,显著优于其他方法。在跨语言迁移任务(D→A和C→A)中,DuCL也取得了最高的F1(0.52和0.48),展现了其鲁棒性。
消融实验与分析:
图2展示了消融实验结果。
(a) 模态与SCW消融:从音频单模态(A)到音频+视频双模态(A+V)带来F1提升(0.04-0.10);加入对比学习(UCL)后进一步提升(0.04,0.03);再加入语义一致性权重(SCW)后获得额外提升(0.05,0.06)。这验证了多模态融合和SCW-UCL的有效性。
(b) 伪标签策略消融:比较了无伪标签加权(o/w PW)、仅使用分类器伪标签(PW(cls))、仅使用相似性伪标签(PW(sim))和联合伪标签(JPW)。JPW在两个迁移任务上均取得最佳F1(0.52,0.48),证明了联合策略的优势。
图3展示了目标域有标签样本比例的影响。

- 随着标签比例从0.1增加到0.4,F1分数整体呈上升趋势,但在C→A任务中增长较线性(0.36→0.48),在D→A任务中较早饱和(0.52)。这说明伪标签机制在少量标签时已能有效工作。
⚖️ 评分理由
- 学术质量:6.0/7 - 技术路线清晰,将多种现有技术(对比学习、伪标签、领域适应)有机整合,针对性地解决抑郁症识别中的特定问题。实验设计合理,在多个数据集上进行了充分的对比和消融分析,结果可信。创新属于渐进式改进,核心组件并非原创,整体学术贡献扎实但不够突出。
- 选题价值:1.5/2 - 关注于心理健康这一重要但相对垂直的应用领域,旨在解决实际临床应用中数据稀缺和跨人群泛化的关键瓶颈,具有明确的应用价值。但与通用的语音/音频处理任务相比,受众面相对较小。
- 开源与复现加成��-0.5/1 - 论文中明确表示“论文中未提及代码链接”和“未提及”模型权重或训练细节。缺乏开源代码和详细的复现指南,使得其他研究者难以验证和复现其工作,这是一个明显的短板。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及。
- 数据集:论文使用了三个公开数据集(AVEC 2014, CMDC, DAIC-WOZ),但未说明其获取方式或预处理脚本。
- Demo:未提及。
- 复现材料:论文未提供训练超参数、模型配置、检查点或附录说明。
- 论文中引用的开源项目:论文未明确列出所依赖的开源工具或模型代码库。
- 总结:论文中未提及任何开源计划或具体材料。