HCFD: A Benchmark for Audio Deepfake Detection in Healthcare
📄 HCFD: A Benchmark for Audio Deepfake Detection in Healthcare #音频深度伪造检测 #状态空间模型 #基准测试 #超几何学习 #医疗健康 📝 评分:5.0/10 | arxiv 👥 作者与机构 第一作者: Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) † (论文标注为Equal contribution as a first author) 通讯作者: Muskaan Singh (Ulster University, UK) (论文标注为Corresponding author) 其他作者: Girish (UPES, India) † (论文标注为Equal contribution as a first author) 💡 毒舌点评 亮点: 填补了医疗音频领域深伪检测的空白,像个“音频法医”一样专门为病态语音设计检测工具,数据集构建和实验设计非常系统、扎实。 槽点: 用了“Mamba”、“超几何空间”这些时髦词汇包装,但核心是“多个证据向量+原型聚类”的思路,有种给传统方法穿上了最新款外套的感觉。另外,实验都在干净的数据集上做,真放到嘈杂的远程医疗通话里,这97%的准确率估计得打个对折。 🔗 开源详情 代码: 论文声明将在GitHub提供代码和评估资源(链接:https://helixometry.github.io/HCFD/)。但截至论文阅读时,该链接内容可能尚未完全公开。 模型权重: 未明确提及是否公开训练好的PHOENIX-Mamba模型权重。 数据集: 论文声明将提供HCFK数据集的划分文件和生成管道。数据集本身基于多个现有公开医疗语音语料库构建,需遵循原语料库的许可协议获取。 预训练权重: 实验中使用的预训练模型(PaSST, WavLM, Wav2Vec2, Whisper等)均为公开模型,链接已在论文中提供。 在线Demo: 未提及。 依赖的开源工具: 依赖多个公开的神经音频编解码器实现(SpeechTokenizer, Descript Audio Codec, Encodec, SoundStream, Funcodec, Audiodec, SNAC),链接已在附录A中提供。 📌 核心摘要 本文针对医疗健康领域中神经音频编解码器生成的语音深伪检测问题,提出了一个全新的研究任务(HCFD)和基准数据集(HCFK)。研究发现,在健康语音上训练的现有深伪检测模型在病态语音上性能显著下降。为此,论文首先验证了预训练音频模型(如PaSST)能更好地应对病理语音带来的变异性。更重要的是,本文提出了一个名为PHOENIX-Mamba的几何感知检测框架,该框架通过Mamba骨干网络建模长程上下文,并利用超几何空间中的多个原型来表征和聚类异质的伪造语音模式,从而在多个临床条件(抑郁、阿尔茨海默症、构音障碍)和语言(英语、中文)上取得了优于预训练模型基线的性能。工作为医疗音频安全提供了重要的基准和初步解决方案,但其方法在真实复杂场景下的鲁棒性以及数据集的覆盖广度仍有待提升。 ...