Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection

📄 Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection #语音生物标志物 #说话人识别 #领域适应 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Hsiang-Chen Yeh(约翰霍普金斯大学,临床心理健康咨询系) 通讯作者:Berrak Sisman(约翰霍普金斯大学,语言与语音处理中心) - 推断,基于其资深作者位置及联系邮箱 sisman@jhu.edu 其他作者: Luqi Sun(约翰霍普金斯大学,语言与语音处理中心) Aurosweta Mahapatra(约翰霍普金斯大学,语言与语音处理中心) Shreeram Suresh Chandra(约翰霍普金斯大学,语言与语音处理中心) Emily Mower Provost(密歇根大学安娜堡分校) 💡 毒舌点评 亮点是狠狠戳破了语音抑郁检测领域“90%+准确率”的皇帝新衣,用一个极其简单却控制严密的实验设计,揭示了所谓“抑郁声学标志物”很大程度上只是“说话人身份特征”的华丽伪装。槽点在于,论文提出的“解药”——领域对抗训练(DANN)——疗效甚微,更像是一个诊断工具而非解决方案,最后只能无奈呼吁“请进行严格的说话人独立评估”,这多少有点把问题抛回给社区的感觉。 🔗 开源详情 代码:论文标题下方有“GitHub”链接标识,但提供的HTML节选内容中未显示具体URL。论文正文中也未明确提及代码开源计划或具体仓库地址。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:使用公开的DAIC-WOZ数据集。 预训练权重:使用了公开的预训练模型Wav2Vec 2.0和XLS-R。 在线Demo:论文中未提及。 引用的开源项目:OpenSMILE工具包(用于提取eGeMAPS特征)。 📌 核心摘要 这篇论文的核心贡献在于系统性地揭示并量化了语音抑郁症检测模型中普遍存在的“说话人身份泄露”问题。作者指出,当前许多报告高准确率的模型,其性能可能严重依赖于对说话人身份(声纹)的记忆,而非对抑郁相关声学生物标志物的泛化学习。为证明这一点,他们提出了一种新颖的、控制训练集大小不变的“说话人重叠控制数据划分法”,并在DAIC-WOZ数据集上,对从简单到复杂的三种模型架构(Wav2Vec线性探测、XLSR-eGeMAPS拼接、Wav2Vec-SLS)进行了严格评估。实验结果一致表明:当训练集与测试集存在说话人重叠时,模型准确率虚高(例如,微调Wav2Vec模型达97.65%);而在严格的说话人独立设置下,性能急剧下降(同一模型降至58.74%)。即使引入领域对抗神经网络(DANN)试图剥离身份信息,性能差距依然巨大。该研究强烈建议,未来的语音抑郁检测研究必须采用严格的说话人独立评估范式,以真实反映模型的临床应用潜力。 🏗️ 模型架构 论文评估了三个模型家族,每个都有“原始”和“DANN增强”两种变体,整体流程如下:原始音频 -> 特征提取/编码器 -> 池化层 -> 分类器(抑郁分类,DANN变体还包含对抗性的说话人分类)。 Wav2Vec-Linear Probing 模型: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 376 words