A Consistent Learning Depression Detection Framework Integrating Multi-View Attention
📄 A Consistent Learning Depression Detection Framework Integrating Multi-View Attention #语音生物标志物 #一致性学习 #注意力机制 #数据增强 #音频分类 ✅ 6.5/10 | 前50% | #语音生物标志物 | #一致性学习 | #注意力机制 #数据增强 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:徐淑敏(Shuomin Xue)(东南大学网络科学与工程学院) 通讯作者:杨春峰(Chunfeng Yang)(东南大学计算机科学与工程学院) 作者列表:徐淑敏(Shuomin Xue)(东南大学网络科学与工程学院)、姚嘉轩(Jiaxuan Yao)(东南大学软件工程学院)、杨春峰(Chunfeng Yang)(东南大学计算机科学与工程学院) 💡 毒舌点评 这篇论文首次将一致性学习范式引入基于音频的抑郁症检测,想法巧妙,技术整合度也不错。但论文的实验对比部分有些“自说自话”,Table 1中多个重要基线方法的Precision和Recall列为空,削弱了对比的说服力,而且作为一篇2026年的论文,完全没有提及开源计划,这对于临床应用研究来说是一个明显的短板。 📌 核心摘要 本文旨在解决基于音频的自动抑郁症检测中面临的信号噪声大、模型鲁棒性不足的问题。作者提出了DSCAM(Dual-Student Consistency Learning Framework with Multi-view Attention)框架,其核心是采用两个独立初始化的学生模型,通过对未标注数据施加高斯噪声和通道掩码增强,利用一致性损失和稳定性损失约束两个模型输出的一致性,从而学习对噪声鲁棒的表示。同时,提出了时间注意力模块(TAM)和特征注意力模块(FAM),分别从时间和特征维度关注关键信息并抑制噪声。实验在CMDC和DAIC-WOZ两个抑郁症数据集上进行,结果表明DSCAM在F1分数和召回率上优于所对比的监督学习方法,例如在DAIC-WOZ数据集上F1达到0.683,召回率达0.710,在CMDC数据集上F1和召回率均达到0.955。消融实验证明了每个模块的贡献。该工作的实际意义在于为临床抑郁症的早期、客观筛查提供了一种潜在的自动化工具。主要局限性包括:1)实验对比不够全面,部分关键基线指标缺失;2)方法高度依赖半监督学习设置,且在更复杂的真实噪声环境下的泛化能力有待验证;3)未提供代码或模型复现资源。 🏗️ 模型架构 DSCAM的完整架构如图1(a)所示,是一个基于双学生模型的半监督学习框架。其核心流程如下: 输入与增强:将训练数据分为有标签和无标签两部分。对无标签数据,通过高斯噪声(公式1)和通道掩码(公式2)生成两个增强视图(Xaug1, Xaug2),并各自应用Dropout(公式3),最终得到四个输入:Xlabel, Xaug1‘, Xaug2‘(来自第一个学生S1)以及对应的视图输入给第二个学生S2(S1和S2结构相同但初始化不同)。 特征提取与时序建模:对每个视图,分别使用预训练的VGGish模型提取128维深度特征(Xvgg)和eGeMAPS工具提取88维声学特征(Xege)。每个特征流都经过层归一化(LN)后输入双向LSTM(BiLSTM)以捕获时序依赖,得到时序增强的特征 Xt_vgg 和 Xt_ege。 时间维度注意力(TAM):TAM的结构如图1(b)所示。它接收BiLSTM的输出,沿特征维度分别进行平均池化和最大池化(公式5, 6),然后拼接(公式7)。拼接后的特征通过一个包含两层1D卷积、BatchNorm和Sigmoid激活的模块,生成时间注意力权重 Wtem(公式8, 9)。该权重与原始BiLSTM输出逐元素相乘,实现对重要时间段的加权(公式10)。 特征融合与全局池化:将两个经过时间加权的特征(Xtem_vgg, Xtem_ege)在特征维度拼接,得到融合特征 Xfusion。随后通过多头自注意力(Multi-Head Attention)捕获不同时间步间的依赖关系,输出 X‘fusion。再经过自适应平均池化和展平,得到全局向量 Xglobal。 特征维度注意力(FAM):FAM的结构如图1(c)所示。它是一个小型神经网络,接收 Xglobal,经过线性层(降维)、ReLU激活、线性层(升维)和Sigmoid激活,生成特征注意力权重 Wfeature(公式13)。该权重与 Xglobal 逐元素相乘,增强重要特征维度(公式14)。 分类与损失:增强后的特征 Xenhanced 通过一个分类器(包含BN、Dropout和两层线性层)得到最终预测 P(公式15)。模型总损失(公式21)由三部分组成:有标签数据的交叉熵损失(Li_cls),无标签数据两个增强视图之间的一致性损失(Li_con,公式16),以及两个学生模型之间的稳定性损失(Li_stab,公式19)。稳定性损失的设计是改进的关键,它根据模型自身预测的稳定性(si)来决定是否及如何互相监督。 图1说明: (a)展示了DSCAM的整体双学生框架,数据流从左到右,包括数据增强、两个并行的学生模型(S1/S2)处理流程,以及最终的联合损失计算。(b)和(c)分别放大展示了TAM和FAM的内部结构。 ...