Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition
📄 Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition #语音生物标志物 #对比学习 #领域适应 #多模态模型 ✅ 7.0/10 | 前25% | #语音生物标志物 | #对比学习 | #领域适应 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Lei Jin(东南大学计算机科学与工程学院) 通讯作者:Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院) 作者列表:Lei Jin(东南大学计算机科学与工程学院), Zhuochang Xu(未说明), Yudong Zhang(未说明), Shijie Wang(未说明), Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院) 💡 毒舌点评 亮点:针对抑郁症识别中数据稀缺和领域偏移的核心痛点,提出了一个结构清晰、技术整合度高的双对比学习框架,将无监督跨模态对齐与有监督伪标签优化有机结合,逻辑自洽。短板:虽然方法有效,但核心组件(对比学习、伪标签)均非全新,更像是现有技术的精巧组合与适配;且论文未提供代码或训练细节,对于一篇发表在ICASSP(信号处理会议)上的工作,其音频/语音处理深度和可复现性细节略显不足。 📌 核心摘要 这篇论文旨在解决双模态(音频与视频)抑郁症识别任务中标注数据稀缺以及跨数据集(跨语言、设备、人群)存在领域偏移的问题。为此,作者提出了一个名为DuCL的双对比学习半监督领域适应框架。该框架的核心是两个模块:1) 语义一致性加权无监督对比学习(SCW-UCL),利用样本间的语义相似度来抑制假负例,增强音频与视频模态间的通用表征对齐;2) 联合伪标签加权有监督对比学习(JPW-SCL),通过融合分类器预测和样本相似性信息生成更可靠的伪标签,并利用置信度加权来降低噪声和缓解领域偏移。与已有方法相比,其创新点在于将两种互补的对比学习策略系统性地整合,以更充分、可靠地利用大量无标签数据。实验在三个公开数据集(AVEC 2014, CMDC, DAIC-WOZ)上进行,结果表明该方法在准确率���F1分数等指标上一致性地优于DANN、MME、CDAC、CLDA等基线方法,特别是在跨语言迁移(如DAIC-WOZ到AVEC2014)任务中取得了最佳的F1分数(0.52)。该研究的实际意义在于提升了自动化抑郁识别模型在真实临床场景下的鲁棒性和适用性。主要局限性是框架的性能可能高度依赖于伪标签的质量和相似度建模的准确性,且实验未探讨模型在更极端或更复杂的领域偏移下的表现。 🏗️ 模型架构 本文提出的DuCL(双对比学习)框架整体架构如图1所示。 模型以双模态数据作为输入:音频特征X(a)(来自log-Mel频谱图)和视频特征X(v)(来自二维人脸关键点)。架构主要由四个部分组成: ...