From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection
📄 From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection 🔥 8.7/10 | 前50% | #语音伪造检测 | arxiv 学术质量 6.4/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 作者:Ke Liu, Jiwei Wei, Wenyu Zhang, Shuchang Zhou, Ruikun Chai, Yutao Dai, Chaoning Zhang, Yang Yang 机构:未明确说明具体单位,根据作者姓名推测可能来自中国的高校或研究机构。 💡 毒舌点评 这篇论文敏锐地抓住了当前音频-视觉深度伪造检测中的一个关键盲区——“唱歌”场景。当所有方法都盯着“说话”时,唱歌带来的节奏变化和更丰富的面部表情确实让现有的唇音同步检测器“露馅”。作者们提供了新的数据集(SHDF)和框架(T-AVFD),实验结果也足够亮眼,尤其是在唱歌数据集上把基线方法“按在地上摩擦”。但是,那个手动设置的调制向量α像是一根拐杖,虽然好用,但让整个自适应融合的优雅性打了折扣。开源只给项目页面,不给代码,这在顶会审稿人眼里属于“诚意不足”。总的来说,这是一篇扎实的“填坑”论文,问题明确,方案有效,但离“完美”还有几步关键的台阶没迈上去。 📌 核心摘要 本文针对音频-视觉深度伪造检测中从“说话”到“唱歌”场景转换所带来的域偏移挑战。作者首先通过域偏移诊断(MMD²)和分数分布重叠分析,定量证明了唱歌场景对现有检测器构成巨大挑战。为此,他们构建了首个唱歌场景的伪造检测数据集SHDF。为了应对跨场景泛化难题,提出了一个无监督的文本引导框架T-AVFD,该框架仅使用真实说话视频训练,通过面部真实性模式学习器(FAPL)和多模态差分权重学习模块(MMDWL)联合建模面部语义和唇音一致性,在多个说话数据集和SHDF上实现了显著优于基线方法的泛化性能和鲁棒性。 🔗 开源详情 代码:论文中提供了项目主页链接 https://LiuKe3068LikWix.github.io/SingingHead-DeepFake/,但未明确提供官方代码仓库的直接链接。 模型权重:未提及模型权重的下载链接。 数据集: 数据集名称:Singing Head DeepFake (SHDF)。 获取链接/开源协议:论文未提供数据集直接下载链接。真实视频部分承诺提供YouTube链接(见附录A.2),伪造视频部分计划通过生成管道提供。数据集仅用于学术研究。 Demo:未提及在线演示链接。 复现材料:论文提供了详细的训练配置(优化器:Adam,学习率:9×10⁻⁴,批大小:512)、超参数设置和实验设置描述,但未提及提供检查点文件下载。 论文中引用的开源项目: Alpha-CLIP:https://github.com/sunao-phi/AlphaCLIP MEMO:https://github.com/MEMO-Head/MEMO Hallo2:https://github.com/fudan-generative-vision/hallo2 EchoMimic:https://github.com/BadToBest/EchoMimic DreamTalk:https://github.com/DreamTalk-AI/DreamTalk Sonics:论文中引用,但未提供具体链接。 AVAD:https://github.com/MauriceFeng/AVAD AVH-Align:https://github.com/Smeu-Alexandru/AVH-Align 🏗️ 方法概述和架构 T-AVFD框架旨在学习场景无关的伪造检测特征,其核心架构包含两个模块,仅使用真实说话视频进行训练。 ...