RTCFake: Speech Deepfake Detection in Real-Time Communication
📄 RTCFake: Speech Deepfake Detection in Real-Time Communication #语音伪造检测 #一致性学习 #数据集 #实时处理 ✅ 7.0/10 | 前25% | #语音伪造检测 | #一致性学习 | #数据集 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jun Xue(武汉大学,计算机科学与工程学院,网络空间安全专业,Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education) 通讯作者:Yanzhen Ren(武汉大学,计算机科学与工程学院) 作者列表:Jun Xue(武汉大学,计算机科学与工程学院)、Zhuolin Yi(武汉大学,计算机科学与工程学院)、Yihuan Huang(武汉大学,计算机科学与工程学院)、Yanzhen Ren(武汉大学,计算机科学与工程学院)、Yujie Chen(北京航空航天大学)、Cunhang Fan(安徽大学,计算机科学与技术学院)、Zicheng Su(武汉大学,计算机科学与工程学院)、Yongcheng Zhang(武汉大学,计算机科学与工程学院)、Bo Cai(武汉大学,计算机科学与工程学院) 💡 毒舌点评 亮点:论文首次系统性地指出了真实RTC传输环境对语音伪造检测的“黑盒”挑战,并针对性地构建了大规模配对数据集和基于语言学单元的训练策略,问题定义精准且工程落地意图明确。短板:所提的“音素引导一致性学习”本质上是特征对齐的损失函数改进,创新性相对有限;实验部分虽然全面,但核心方法(PCL)相比简单的混合训练(Mix)带来的提升幅度(EER从7.33%降至5.81%)并非革命性,说服力中等。 📌 核心摘要 解决的问题:现有的语音深度伪造检测研究主要针对离线场景,忽略了真实实时通信(RTC)过程中由噪声抑制、编解码、数据包丢失等黑盒处理模块引入的复杂、耦合且动态的失真,导致检测模型跨平台泛化和噪声鲁棒性差。 方法核心:提出首个针对RTC场景的大规模语音深度伪造数据集RTCFake(约600小时),并通过主流通信平台进行真实传输构建配对的离线/在线语音。基于观察到音素级表征比帧级表征在传输前后更稳定,提出了音素引导的一致性学习(PCL)策略,在训练时约束模型学习跨传输条件的音素级不变特征。 新在哪里:数据层面,首次构建了覆盖多生成模型、多RTC平台、多噪声场景的配对数据集;方法层面,首次利用语音的音素结构作为稳定锚点,引导检测模型学习领域不变的鉴别性特征,区别于以往基于帧级特征或简单数据增强的方法。 主要实验结果: 在RTCFake评估集上,提出的PCL方法取得了最佳的平均EER(5.81%),优于仅离线训练(9.60%)、仅在线训练(8.96%)和混合数据训练(7.33%)。 跨平台泛化实验表明,PCL方法在已见和未见通信平台上均显著优于基线方法,尤其在未见平台上的EER稳定且最低。 噪声鲁棒性实验证明,在多种未见噪声条件下,PCL方法的性能稳定性优于其他训练策略。 实际意义:为在真实、复杂的RTC环境中部署语音伪造检测系统提供了关键的数据基础和一种有效的建模范式,有助于提升视频会议、社交软件等场景下的语音交互安全。 主要局限性:未考虑真实世界中录音/播放硬件的异质性、用户行为多样性等终端侧变量与平台处理管线的交互影响;在极端噪声或某些平台的强非线性失真下仍存在性能差距。 🏗️ 模型架构 本文并未提出一个全新的检测模型架构,而是在已有的SOTA检测模型框架上引入了一种新的训练策略。其核心流程如下: ...