HCFD: A Benchmark for Audio Deepfake Detection in Healthcare

📄 HCFD: A Benchmark for Audio Deepfake Detection in Healthcare #音频深度伪造检测 #状态空间模型 #基准测试 #超几何学习 #医疗健康 📝 评分:5.0/10 | arxiv 👥 作者与机构 第一作者: Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) † (论文标注为Equal contribution as a first author) 通讯作者: Muskaan Singh (Ulster University, UK) (论文标注为Corresponding author) 其他作者: Girish (UPES, India) † (论文标注为Equal contribution as a first author) 💡 毒舌点评 亮点: 填补了医疗音频领域深伪检测的空白,像个“音频法医”一样专门为病态语音设计检测工具,数据集构建和实验设计非常系统、扎实。 槽点: 用了“Mamba”、“超几何空间”这些时髦词汇包装,但核心是“多个证据向量+原型聚类”的思路,有种给传统方法穿上了最新款外套的感觉。另外,实验都在干净的数据集上做,真放到嘈杂的远程医疗通话里,这97%的准确率估计得打个对折。 📌 核心摘要 本文针对医疗健康领域中神经音频编解码器生成的语音深伪检测问题,提出了一个全新的研究任务(HCFD)和基准数据集(HCFK)。研究发现,在健康语音上训练的现有深伪检测模型在病态语音上性能显著下降。为此,论文首先验证了预训练音频模型(如PaSST)能更好地应对病理语音带来的变异性。更重要的是,本文提出了一个名为PHOENIX-Mamba的几何感知检测框架,该框架通过Mamba骨干网络建模长程上下文,并利用超几何空间中的多个原型来表征和聚类异质的伪造语音模式,从而在多个临床条件(抑郁、阿尔茨海默症、构音障碍)和语言(英语、中文)上取得了优于预训练模型基线的性能。工作为医疗音频安全提供了重要的基准和初步解决方案,但其方法在真实复杂场景下的鲁棒性以及数据集的覆盖广度仍有待提升。 🏗️ 模型架构 PHOENIX-Mamba 模型的整体流程如下: 输入: 原始音频波形 x。 特征提取: 使用一个冻结的预训练模型(如PaSST, WavLM)作为编码器,提取序列化的潜在特征 X ∈ R^{T×D}。 适配器: 通过一个可学习的线性投影层 ϕ,将特征维度从 D 映射到 d,得到 U ∈ R^{T×d}。 上下文建模: 将序列 U 输入一个 Mamba状态空间模型 骨干网络 f_θ。该网络包含选择性状态空间层、层归一化、门控MLP和残差连接,输出富含上下文信息的特征序列 Z ∈ R^{T×d}。 多证据池化: 不同于传统的全局池化,模型使用 M 个可学习的查询向量,通过注意力机制从 Z 中聚合出 M 个局部的“证据向量” E ∈ R^{M×d}。每个证据向量关注音频中不同时间段的线索。 超几何映射: 每个证据向量 e_m 通过一个可学习的线性层 W 和指数映射 Exp_0^c,被投影到庞加莱球 ℳ(一种双曲空间)中,得到 h_m ∈ ℳ。 原型分类: 在双曲空间中,定义了一个负类原型 p_- 和 K 个正类原型 {p_+,k}。对于每个证据点 h_m,计算其与所有正类原型的软分配权重 q_m,k,并基于与正负原型的双曲距离计算分数 s_-(h_m) 和 s_+(h_m)。 聚合与预测: 对所有证据向量的分数进行平均,得到实例级的分数 S_- 和 S_+,最后通过Softmax得到最终的伪造语音概率 P(y=+|x)。 关键设计选择理由: ...

2026-04-21