How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection
📄 How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection #音频深度伪造检测 #数据集 #模型评估 #语音合成 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #模型评估 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Xiao (斯图加特大学自然语言处理研究所) 通讯作者:未说明(论文未明确指出) 作者列表:Yixuan Xiao (斯图加特大学自然语言处理研究所)、Florian Lux (AppTek GmbH)、Alejandro Pérez-González-de-Martos (AppTek GmbH)、Ngoc Thang Vu (斯图加特大学自然语言处理研究所) 💡 毒舌点评 论文精准地抓住了“编解码器重合成音频既像好人又像坏人”这个痛点,并用一套严谨的实验给出了“看它心是为压缩而跳还是为合成而跳”的诊断思路,实用性拉满。不过,作者似乎更满足于揭示“病症”和提出“用药建议”,而对如何从根源上(即检测器架构层面)提升对这类模糊样本的鲁棒性,着墨甚少。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/XIAOYixuan/IMS-ADD/tree/codec-add,包含了训练脚本和代码库。 模型权重:未明确提及是否开源预训练的检测器权重。 数据集:公开。提供了两个获取途径:HuggingFace (https://huggingface.co/datasets/Flux9665/CodecDeepfakeDetection) 和 Zenodo (https://zenodo.org/records/17225924)。 Demo:未提及。 复现材料:提供了详细的训练超参数、数据增强策略、��据集划分统计等关键复现信息。 论文中引用的开源项目:引用了多个开源TTS系统和NAC模型作为攻击源,包括Llasa (XCodec2), MARS5 (EnCodec), CSM (Mimi), OpenAudio S1-mini (DAC), CosyVoice2/Chatterbox (S3Tokenizer),以及检测器AASIST。 📌 核心摘要 本文针对音频深度伪造检测领域中神经音频编解码器(NAC)的双重角色问题展开研究。NAC既可用于音频压缩传输(产生编解码器重合成音频CoRS),又可作为语音合成系统的声码器(产生编解码器语音合成音频CoSG)。这使得训练检测器时面临困境:CoRS应标注为真实还是伪造?为解决此问题,本文构建了一个基于ASVspoof 5协议的扩展数据集CodecDeepfakeDetection,包含多种TTS系统(Llasa, MARS5等)和NACs(EnCodec, Mimi, DAC等)。核心创新在于系统性地评估了将CoRS标注为“真实”或“伪造”对不同检测器(X-AASIST, LWBN)性能的影响。实验发现,标注策略的有效性取决于NAC的设计目标:对于以压缩为导向的NAC(如EnCodec, DAC),将其重合成音频标注为伪造会导致检测器过度学习编解码器伪影,从而错误拒绝经该NAC压缩的真实音频;而对于以合成为导向的NAC(如Mimi),将其标注为伪造更有效。主要实验结果表明,未使用NAC数据增强的基线模型在面对混合了CoRS的测试集时,等错误率(EER)高达约40%,而采用合适的增强策略(对部分NAC作为真实数据)可将其显著降低约8-11个百分点。本文的实际意义在于为构建对编解码器技术演变更鲁棒的检测系统提供了明确的数据标注指南。主要局限性在于研究主要集中于分析和提供见解,而非提出一个全新的、能统一处理此类模糊性的检测模型。 ...