音频深度伪造检测

BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset

📄 BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset #音频深度伪造检测 #语音合成 #低资源 9/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 后50% | #音频深度伪造检测 | #语音合成 | #低资源 | arxiv 👥 作者与机构 Istiaq Ahmed Fahad, Kamruzzaman Asif, Sifat Sikder Institute of Information Technology, University of Dhaka, Bangladesh 💡 毒舌点评这是一篇典型的“填补空白”式工作，对于孟加拉语社区来说是个不错的资源，但顶会水平？它甚至没敢声称自己的生成模型是SOTA。论文的核心价值是发布了一个“存在”的数据集，而不是推进了检测技术。评估部分只有主观打分和一张看不清的t-SNE图，缺乏任何有说服力的定量实验来证明这个数据集真的能提升现有检测器的性能。如果连在最简单的baseline上跑个数都省了，那么发布数据集的“核心贡献”就打了一半折扣。作者未来的工作展望（加说话人）听起来像是这篇论文本该完成的部分。 ...

Robust Spoofed Speech Detection via Temporal Pyramid Modeling

📄 Robust Spoofed Speech Detection via Temporal Pyramid Modeling #音频深度伪造检测 #自监督学习 #低资源 #数据增强 6.7/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构作者：Mahtab Masoudi Nezhad, Nima Karimian 机构：西弗吉尼亚大学，南佛罗里达大学 💡 毒舌点评这篇论文像一个精心调制的“技术沙拉”——把XLS-R预训练模型、Sinc/Mel等经典前端、以及一个“金字塔”结构搅拌在一起，然后宣称它能更好地捕捉“从局部毛刺到全局语调不自然”的伪造痕迹。其核心创新，即那个“Temporal Pyramid Adapter”，本质上是一个并行的多尺度一维卷积模块，技术上并无颠覆性。实验部分，论文在PartialSpoof上报告的EER和AUC确实亮眼，但通读全文会发现，这种优势在域迁移场景下会迅速缩水甚至消失（表4, 5, 6），论文自己也承认了这个尴尬事实。更值得玩味的是，在DiffSSD数据集上，他们的Pyramid模型F1-score（0.4985）甚至远低于Base模型（0.7770），这暴露出其阈值敏感性问题，而论文对此的讨论轻描淡写。多语言实验部分则像是一个未完成的结论——高AUC与低准确率之间的鸿沟暗示“决策边界校准”是个大问题，但论文只提了一句需要更好的策略，却没有提供任何实质性的解决方案。总体来说，这是一篇扎实的、但缺乏惊喜的增量式工作，其价值更多在于系统性的实验对比，而非方法论的突破。 📌 核心摘要本文旨在提升语音欺诈检测的跨数据集与跨语言泛化能力。作者提出一个模块化框架，以自监督XLS-R模型为骨干，前端集成可选的适配器模块。其中，核心提出的是“时间金字塔适配器”，它采用并行的时间卷积分支，通过不同大小的卷积核（即不同感受野）来捕捉多尺度的伪造线索（从局部的频谱不连续性到全局的韵律异常）。论文在ASVspoof 2017/2021、PartialSpoof、DiffSSD和多语言HQ-MPSD等数据集上进行了广泛评估。结果表明，该方法在PartialSpoof数据集的域内评估中取得了具有竞争力的性能（EER 3.87%， AUC 99.24%）。然而，跨数据集和多语言迁移实验揭示，虽然AUC等排序指标表现尚可，但EER、F1等阈值相关指标的性能会显著下降，表明模型的决策边界对分布偏移和语言特性敏感，需要更好的校准与适应策略。 ...

Dual-Branch Gated Fusion for Open-Set Audio Deepfake Source Tracing

📄 Dual-Branch Gated Fusion for Open-Set Audio Deepfake Source Tracing #音频深度伪造检测 7.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.8/10 | 前25% | #音频深度伪造检测 | #音频深度伪造检测 | arxiv 👥 作者与机构作者：Awais Khan, Uddin Malik, Kutub Khalid。机构：College of Innovation and Technology, University of Michigan, Flint, MI, USA；ProbeTruth Inc., MI, USA。 💡 毒舌点评论文针对开放集音频伪造源追踪这一实际难题，提出了一个直观且有效的双分支融合框架。然而，审稿人需要追问：CORES特征的“新颖性”究竟体现在何处？论文自述“不声称单个组件的创新”，而是“刻意组合”，这听起来更像是一个工程性的“菜谱”，而非方法论上的突破。此外，所谓的“门控坍塌”现象及其“门冻结”解决方案，虽然必要，但显得有些补救性质。与基线的对比中，选择性地忽略了部分可比指标（如Kulkarni等的开放集FPR95），使得SOTA宣称需要更仔细的审视。论文的价值更多体现在证明了“简单特征工程+巧妙融合”的有效性，而非技术上的根本性飞跃。 📌 核心摘要本研究旨在解决开放集音频深度伪造源追踪中，已知系统分类精度与未知系统拒绝能力之间的核心矛盾。作者提出了一种双分支门控融合框架：一个分支使用冻结的XLSR-53自监督模型提取高层语义特征（\(x_{ssl} \in \mathbb{R}^{1024}\)），另一个分支使用精心设计的66维手工特征CORES（倒谱、振荡、节奏、能量、光谱）提取低层信号特征（\(x_{hc} \in \mathbb{R}^{66}\)）。为了解决直接拼接导致的SSL特征主导问题，引入了一个输入条件化的门控网络，通过softmax输出权重（\(\alpha_{hc}, \alpha_{ssl}\)）动态融合两个分支的投影嵌入。训练目标是分类交叉熵损失（\(\mathcal{L}_{ce}\)）、能量边际损失（\(\mathcal{L}_{energy}\)，用于拉大ID和OOD样本的能量分数差距）和门控多样性损失（\(\mathcal{L}_{gate}\)，最大化ID与OOD样本间门权重分布的KL散度）的加权和。在MLAAD基准上，该方法以仅89.7万参数，达到了97.6%的ID准确率、4.9%的EERc和10.4%的FPR95，相较于基线系统在FPR95上实现了83.5%的相对降低，同时证明了特征互补性而非模型规模是实现良好开放集性能的关键。 ...

Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion

📄 Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion #音频深度伪造检测 🔥 8.4/10 | 前50% | #音频深度伪造检测 | #音频深度伪造检测 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 1.8/2 | 置信度高 👥 作者与机构作者：S. Sutharya, Remya K. Sasi 机构：Cochin University of Science and Technology (CUSAT), Kochi, India 💡 毒舌点评这篇论文就像在自助餐厅里开了一家新店，招牌菜是“三合一”检测（真实/全伪造/半伪造）。它确实第一个吃螃蟹，在MLADDC T3这个新赛道上建立了第一个能同时分类和定位的基线，这值得肯定。模型设计上，把MFAAN的2D CNN换成1D DSConv并加上交叉注意力，思路清晰。然而，这“第一”的含金量需要审视：T3任务本身（1秒拼接在4秒音频中）是否过于简化，能否代表现实世界中更隐蔽的伪造？实验部分，最引人注目（也最令人头疼）的是跨数据集泛化研究——论文花了很大篇幅展示模型在跨域上的惨败，但给出的分析和潜在解决方案却非常薄弱，仅停留在“发现问题”和引用“灾难性遗忘”。这就像医生明确诊断了疑难杂症，却只会开阿司匹林。此外，与大型预训练模型（XLS-R, AST）的对比在资源受限设定下进行，虽然能凸显本模型的轻量高效，但声称“优于”可能不够全面，因为这些大模型在充分微调下的潜力未被探索。论文写作流畅，但结论部分的部分表述（如“解决了两个开放问题”）稍显过度宣称。 📌 核心摘要本文针对音频深度伪造检测中的一个实际且更难的问题——“半真”音频（即部分伪造）检测与定位，提出了CAFNet模型。该模型通过并行分支提取MFCC、LFCC和Chroma-STFT特征，利用交叉注意力进行融合，并在一个前向传播中同时完成三分类（真实/全伪造/半真）和拼接边界回归。在首个公开的三分类+定位基准MLADDC T3上，CAFNet建立了基线，实现了92.71%的整体准确率和0.075秒的边界定位平均绝对误差（MAE）。在二分类任务上，模型以仅576k参数超越了经过微调的大型预训练模型。然而，研究也发现，标准的预训练-微调范式会导致跨数据集表示崩溃，模型在跨域场景下的泛化能力极差。 🔗 开源详情代码：https://github.com/ssutharya/Audio_Deepfake_Detection 模型权重：代码仓库中包含训练好的模型。数据集： MLADDC T2: https://www.kaggle.com/datasets/artharking/mladdc-t2 MLADDC T3: https://www.kaggle.com/datasets/artharking/mladdc-t3 Demo：未提及。复现材料：论文在第3节详细描述了模型架构、特征提取、损失函数和超参数（表2）。具体的训练代码、配置及预训练权重指向上述GitHub代码仓库。论文未提及单独的复现手册或附录。论文中引用的开源项目： MFAAN：论文重新实现了该模型作为基线，未提供其原始代码链接。 HiFi-GAN， BigVGAN：论文提及为语音合成器，未提供具体项目链接。 XLS-R 300M， AST 87M：论文提及为预训练模型，未提供具体项目链接。 librosa：论文在讨论LFCC实现时提及，作为常用音频处理库被引用。其他研究工具或数据集（如FoR, WaveFake, ASVspoof, In-the-Wild）：论文在实验中作为对比或测试集引用，未提供其官方链接。 🏗️ 方法概述和架构 CAFNet是一个统一的、端到端的轻量级架构，旨在同时解决三分类和拼接边界定位两个任务。其核心设计是并行的特征提取、基于交叉注意力的特征融合以及共享的多任务输出头。架构详见论文图2（Fig. 2）。 ...

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio

📄 MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio #音频深度伪造检测 #自监督学习 #提示学习 #数据集 🔥 10/10 | 前10% | #音频深度伪造检测 | #多流提示调优 | #自监督学习 #提示学习 | arxiv 学术质量 6.9/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 high 👥 作者与机构 Qingcao Li: 浙江大学，未明确标注单位，但为共同第一作者 Yipeng Lin: 未明确标注单位 Weichen Lian: 未明确标注单位 Zhongjie Ba: 未明确标注单位 Peng Cheng: 浙江大学（通讯作者），中国科学院信息工程研究所 Zhichao Lian: 未明确标注单位 💡 毒舌点评本文档定位清晰，旨在填补音频深度伪造检测在真实混合声源场景下的评估空白，工作扎实。MixFake数据集的构建方法（解耦式混合）和任务定义（前景/背景检测）是主要贡献。然而，所谓的“Multi-stream Prompt Tuning”方法虽能提升性能，但创新性有限，更像是一种工程化的特征增强技巧。将希尔伯特-黄变换（HHT）和Teager-Kaiser能量算子（TKEO）这些经典信号处理工具作为“提示”注入SSL模型，思路有趣，但论文对“为什么这些特定先验在此有效”的机制解释流于表面，缺乏更深层的分析。消融实验表IV和表V内容完全重复，这是一个明显的排版或逻辑错误，削弱了论证的严谨性。总体而言，这是一篇合格的应用型论文，数据集有价值，方法有效，但距离顶会要求的理论或方法上的重大突破尚有距离。 📌 核心摘要研究背景与问题：音频深度伪造检测在复杂、混合声源的真实场景中面临挑战。现有基于自监督学习（SSL）的模型因其“语义中心”特性，在处理缺乏语言信息的背景音乐或环境声时性能严重下降。标准数据集（如ASVspoof）多为干净语音，无法模拟这一现实挑战。核心方法与数据集：本文首先提出了MixFake，一个大规模基准数据集，用于系统评估混合声源（语音前景+音乐/环境声背景）和不同信噪比（SNR）下的伪造检测。为解决“语义中心”局限，提出了多流提示调优（Multi-stream Prompt Tuning）框架。该框架在冻结的SSL骨干网络（XLS-R）每一层注入三种可学习提示流：基础流（Base Stream）提供基础可学习参考；频率流（Frequency Stream）通过希尔伯特-黄变换（HHT）提取多尺度瞬时频率特征，注入相位和频率异常信息；纹理流（Texture Stream）利用Teager-Kaiser能量算子（TKEO）和特征通量（Feature Flux）提取能量波动特征，并通过门控机制融合。这些信号级先验与SSL语义特征结合，增强了模型对非语义成分伪造伪影的捕捉能力。主要结果：在MixFake数据集上，所提方法在前景语音检测任务中达到0.95% EER，在更困难的背景音频检测任务中达到12.40% EER，相比基线方法（如XLSR-AASIST）有显著提升（背景检测绝对改进达7.72%）。在跨数据集（In-the-wild）评估中，也表现出更好的泛化性（6.24% EER）。结论与意义： MixFake数据集为混合音频伪造检测提供了首个系统化评估基准。所提出的多流框架通过融合经典信号处理先验，有效弥补了SSL模型在处理非语义音频成分上的不足，为复杂场景下的深度伪造检测提供了新思路。 ...

EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection #音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性 ✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv 学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Aritra Marik（达姆施塔特工业大学， ELIZA）通讯作者：论文未明确标注通讯作者，但提供了三位作者的邮箱。作者列表：Aritra Marik（达姆施塔特工业大学， ELIZA）、Marcel Klemt（达姆施塔特工业大学， hessian.AI）、Anna Rohrbach（达姆施塔特工业大学， hessian.AI） 💡 毒舌点评论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号，并设计了专用模块（EmoForensics）进行建模。然而，其“增强”效果高度依赖于强基线（SIMBA），且EmoForensics独立性能（在FakeAVCeleb上AUC 82.10%，在DeepSpeak v2上仅65.38%）与其声称的“互补性”角色存在巨大落差，这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性，缺乏深入分析。 📌 核心摘要要解决什么问题：随着生成式AI快速发展，深度伪造技术不断更新，现有检测模型难以泛化至训练时未见过的伪造类型，这是当前深度伪造检测研究面临的主要挑战。方法核心是什么：本文提出 Emo-Boost 框架，旨在通过引入高层语义线索——情感（Emotion）来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器，它利用冻结的预训练情感识别模型提取音频和视觉情感表征，并通过时序 Transformer 建模模态内情感一致性，通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合，将 EmoForensics 的表征与现有多模态检测器（如 SIMBA）的表征相结合。与已有方法相比新在哪里：相比于主要关注像素级、频谱级伪影或跨模态对齐（如音素-视位匹配）的现有方法，本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号，并显式地设计了针对情感表征的跨模态和时序建模模块。此外，与先前情感检测工作相比，本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。主要实验结果如何：在 FakeAVCeleb 数据集的留一法（跨操纵）评估中，Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%，相比基线 SIMBA（93.17%）提升了 2.13%。在 DeepSpeak v2 上，Emo-Boosted SIMBA（95.26%）与 SIMBA（95.30%）性能相当。消融实验证明，EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析（图4）显示，EmoForensics 在不同伪造类型上的性能波动（面积 12.50）小于 SIMBA（面积 32.98）。模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 实际意义是什么：该工作为深度伪造检测提供了一个新的视角，即利用高阶语义信息作为补充线索，有助于提升检测器面对未知新伪造技术的鲁棒性，对内容安全审核领域有潜在应用价值。主要局限性是什么：EmoForensics 作为独立检测器的性能较弱；在数据集 DeepSpeak v2 上未观察到明显的性能提升，作者归因于该数据集情感表达不够自然；融合策略（特征乘法）的理论依据和有效性分析不足；未探讨情感特征在不同伪造攻击下的失效模式。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及具体模型权重获取链接。数据集：论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。 Demo：论文中未提及。复现材料：论文中提供了详细的实现细节、训练配置和超参数设置（见 Section 4 Implementation Details）。论文中未提及模型检查点获取方式。论文中引用的开源项目： POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA XceptionNet, LipForensics, AVAD, AVFF 等其他项目：论文中仅提及名称，未提供具体链接。 🏗️ 方法概述和架构 Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics. ...

EnvTriCascade: An Environment-Aware Tri-Stage Cascaded Framework for ESDD2 2026 Challenge

📄 EnvTriCascade: An Environment-Aware Tri-Stage Cascaded Framework for ESDD2 2026 Challenge #音频深度伪造检测 #自监督学习 #数据增强 #音频分类 #竞赛方案 #级联模型 📝 5.3/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #数据增强 #音频分类 | arxiv 学术质量 4.3/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Hengyan Huang (贡献均等) 通讯作者：Haonan Cheng 作者列表：Hengyan Huang (贡献均等), Xiaoxuan Guo (贡献均等), Jiayi Zhou, Yuankun Xie, Jian Liu, Haonan Cheng (通讯作者), Long Ye, Qin Zhang 支持机构：论文在致谢中提到了多个基金项目的支持，但未在作者信息中明确列出单位。 💡 毒舌点评这篇论文本质上是针对ESDD2 2026特定竞赛的“工程竞赛报告”。其核心是将多个已有的、强大的SSL预训练模型（XLS-R, SSLAM, EAT）通过一个精心设计的、针对竞赛规则（Macro-F1最大化）的级联流水线进行整合，并取得了优异的竞赛名次（第二名）。方法的创新性在于对现有技术的巧妙组合与应用层面的设计（如三阶段级联、层时间融合），而非提出新的基础算法或理论。这种“组合拳”在竞赛中有效，但论文的学术贡献更多体现在为解决组件级ADD这一新问题提供了一个强效的工程解决方案参考，其方法论的普适性和对更广泛音频安全领域的推动作用有限。 ...

MusicDET: Zero-Shot AI-Generated Music Detection

📄 MusicDET: Zero-Shot AI-Generated Music Detection #音频深度伪造检测 #标准化流 #零样本学习 #时频分析 #音乐信息检索 #异常检测 ✅ 7.4/10 | 前25% | #音频深度伪造检测 | #标准化流 | #零样本学习 #时频分析 | arxiv 学术质量 5.9/8 | 影响力 0.7/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Chaolei Han 通讯作者：未说明作者列表：Chaolei Han（未说明所属机构）、Hongsong Wang（未说明所属机构）、Jie Gui（未说明所属机构） 💡 毒舌点评亮点：首次明确将AI生成音乐检测问题形式化为严格的“零样本”设置，这一设定比传统的闭集或跨生成器评估更贴近实际挑战。所提出的“频率引导的标准化流”框架，将领域知识（音乐信号的频率异质性）与概率生成建模巧妙结合，通过分层结构（频带流+全局流）提升了建模能力。实验设计非常全面，不仅在两个主流基准（FakeMusicCaps, SONICS）上进行了跨生成器评估，还额外在子域泛化、任务迁移和鲁棒性测试上进行了深入分析。短板：方法的核心假设——真实音乐的潜在分布可用一个简单高斯先验 N(μ_real, I) 建模——对于高度复杂、多模态的音乐数据而言显得过于理想化。论文未与更强大的单类分类/异常检测基线（如基于预训练特征的Deep SVDD、能量模型）进行公平对比，这在一定程度上削弱了方法新颖性和优越性的论证力度。此外，鲁棒性实验显示性能在常见音频处理下急剧下降，作者对此的解释（“强干扰”）略显简单，缺乏对根本原因的深入分析或可行的缓解思路。 📌 核心摘要问题：现有AI生成音乐（AIGM）检测器大多为特定生成器设计，依赖其生成的样本进行训练，因此在面对未见过的生成器时性能严重下降，限制了实际部署。核心方法：提出MusicDET，一个零样本检测框架。其核心思想是将AIGM检测定义为对“真实音乐”分布的离群点检测。训练时仅使用真实音乐。方法首先将音频波形转换为能量谱图，通过卷积网络提取特征；然后通过频率分解模块将特征沿频率轴切分为多个子带；每个子带由独立的标准化流（Normalizing Flows）建模其局部统计特性；最后将各子带的潜在表示拼接，输入全局标准化流学习真实音乐的联合概率分布。检测时，计算输入样本在该分布下的似然分数，低似然样本被判定为AI生成。主要结果：在FakeMusicCaps数据集的跨生成器评估中，零样本MusicDET的平均等错误率（EER）为4.51%，显著优于最佳基线W2V2-AASIST†（11.46%）。在SONICS数据集上，平均EER为2.89%，接近监督的SpecTTTra-β（4.02%）。类条件版本性能进一步提升（FakeMusicCaps: 0.89%, SONICS: 0.00%）。实际意义：提出了一种生成器无关的、仅依赖真实音乐训练的检测范式，为应对快速迭代的生成模型提供了更实用的解决方案，对版权保护和内容审核具有价值。主要局限：模型对音频后期处理（如变调、加噪、有损压缩）非常敏感，在这些干扰下性能会急剧恶化（例如，EER可超过40%）。 🔗 开源详情代码：https://github.com/Chaolei98/MusicDET 模型权重：论文中未提及模型权重下载链接数据集： FakeMusicCaps (Comanducci et al., 2025)：论文中未提供具体下载链接。 SONICS (Rahman et al., 2025)：论文中未提供具体下载链接。 ASVspoof 2019 LA (Todisco et al., 2019)：公开基准数据集，论文中未提供具体下载链接。 CtrSVDD (Zang et al., 2024)：公开基准数据集，论文中未提供具体下载链接。 FMA-medium (Defferrard et al., 2017)：用于附录A.2的实验，论文中未提供具体下载链接。 Demo：论文中未提及复现材料：论文中未提供训练好的模型检查点文件或专门的复现指南文档。具体的超参数和训练设置见正文，例如：音频预处理参数（16kHz采样，4秒长度，STFT参数n_fft=512, hop_length=160, win_length=512），模型结构（频段数=2，流步数K=2），先验均值（μ_real=5, μ_fake=-5），优化器（Adam，初始学习率5e-4），训练轮数（10 epochs），以及使用的数据增强（SpecAugment）。 🏗️ 方法概述和架构本文提出MusicDET，一个基于概率密度估计的零样本AI生成音乐检测框架。其核心思想是：将AI生成的音乐视为相对于“真实音乐”分布的一种异常或离群点，因此可以通过仅建模真实音乐的概率分布来进行检测。 ...

The Deepfakes We Missed: We Built Detectors for a Threat That Didn't Arrive

📄 The Deepfakes We Missed: We Built Detectors for a Threat That Didn’t Arrive #深度伪造检测 #音频深度伪造检测 #基准测试 #评测协议 #内容审核 #立场论文 #文献计量 ✅ 6.5/10 | 前50% | #深度伪造检测 | #基准测试 | #音频深度伪造检测 #评测协议 | arxiv 学术质量 7.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Shaina Raza（Vector Institute for Artificial Intelligence, Toronto, Canada; 多伦多城市大学）通讯作者：论文未明确标注通讯作者。作者列表：Shaina Raza（Vector Institute for Artificial Intelligence, Toronto, Canada；多伦多城市大学） 💡 毒舌点评这篇立场论文以文献计量为刃，精准解剖了深度伪造检测领域近十年的“错位”症候群。其核心价值不在于技术突破，而在于以无可辩驳的实证数据揭示了研究议程与社会危害之间的巨大鸿沟，并尖锐地指出这种错位已成为部署有效防御的主要瓶颈。然而，其“威胁未以预测形式到来”的核心论断在力度上稍显不足，且对“威慑论”的反驳主要依赖间接证据。论文的警示意义远大于其提供的技术解决方案。 📌 核心摘要问题：本文指出，自2017年以来，深度伪造检测研究一直围绕一个继承自2017-2019年、以“公众人物换脸/说话头视频”（T1）为主的威胁模型，但该威胁模型预测的大规模政治灾难并未在2024年全球选举周期中如期出现。与此同时，非自愿亲密图像（NCII）、语音克隆诈骗等实际危害已大规模爆发，研究重心与实际危害分布存在严重错位。方法核心：本文是一篇立场论文，其核心方法是一个四阶段分析框架：(1) 威胁模型考古，追溯当前研究主流威胁模型的起源；(2) 实证错位分析，通过文献计量（438篇论文）和危害数据综合（来自IC3， IWF等），量化研究努力与实际危害的分布差异；(3) 机制诊断，分析基准继承、数据伦理不对称、显著性驱动关注等导致错位持续的原因；(4) 提出三个面向被忽视危害类别的具体技术研究议程。创新点：提出了清晰的五类威胁分类法（T1-T5），并通过大规模实证分析系统性地量化了领域内资源与社会危害之间的错位。超越现象描述，深入诊断了维持这种错位的结构性原因，并勾勒了针对现实危害的研究路线图。主要结果：研究分布：在389篇检测方法论文中，71.0%（276篇）针对T1（公众人物视频），28.5%（111篇）针对T3（音频），而T2（1篇）、T4（0篇）、T5（1篇）几乎为零。危害趋势：IWF评估的AI生成CSAM视频在2024-2025年间增长260倍（从13个到3,443个）；IC3报告的合成媒体相关投诉呈数量级增长。相比之下，2024年全球选举周期中未有记录证明合成政治视频根本性地改变了选举结果，相关事件多由人类而非ML系统识别。错位加剧：在对数刻度下，T1论文数量呈线性增长，而危害指标呈指数增长，差距在持续扩大。实际意义：论文明确呼吁ML社区、会议、资助机构和平台将研究议程重新平衡，投向危害真实增长的领域（如实时语音克隆检测、隐私保护的NCII检测、消息层防御），并提出了具体的行动建议。主要局限性：论文明确承认其文献语料库可能低估了安全、HCI等领域的工作；危害数据依赖公开报告，存在漏报偏差；对论文和基准的分类涉及主观判断；且无法通过反事实分析证明现有研究未对政治deepfake产生威慑。 🔗 开源详情代码：论文提及在补充材料中包含了用于构建438篇论文语料库的收集脚本和关键词列表（见附录A），但未提供具体的代码仓库链接（如GitHub）。这与“has_code: 是”的机器摘要判断一致。模型权重：论文未提出新模型，故无模型权重。数据集：论文引用了多个用于研究和基准测试的公开数据集（如FaceForensics++, Celeb-DF, DFDC等，见附录C Table 2），但并未提供新的数据集。 Demo：未提及。复现材料：论文详细描述了其文献收集、分类的方法论（附录A, B），并表示在补充材料中包含了收集脚本和关键词规则。这为复现其核心文献分析提供了基础。危害数据综合部分属于定性研究，复现性较低。论文中引用的开源项目：论文作为一篇立场论文，主要引用学术研究和数据集作为论据。文中提到的实体如StopNCII.org、IWF、IC3是报告和处理危害的组织或数据库，而非供研究者使用的开源软件项目。 🏗️ 方法概述和架构本文是一篇立场与观点论文（Position Paper），其核心方法并非提出一个新的检测模型，而是通过一套系统性的分析框架来论证其核心主张。该框架旨在诊断研究与危害的错位并提出新的研究方向，具体流程与架构如下： ...

RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations

📄 RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations #音频深度伪造检测 #基准测试 #多语言 #鲁棒性 ✅ 6.0/10 | 前50% | #音频深度伪造检测 | #基准测试 | #多语言 #鲁棒性 | arxiv 学术质量 6.0/8 | 影响力 0.7/2 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Hieu-Thi Luong（Fortemedia, Singapore）通讯作者：Hieu-Thi Luong（radar-challenge@hieuthi.com）作者列表：Hieu-Thi Luong（Fortemedia, Singapore）、Xuechen Liu（Xi’an Jiaotong-Liverpool University, China）、Ivan Kukanov（KLASS Engineering & Solutions, Singapore）、Zheng Xin Chai（KLASS Engineering & Solutions, Singapore）、Kong Aik Lee（The Hong Kong Polytechnic University, Hong Kong SAR, China） 💡 毒舌点评亮点：论文系统性地定义了一个面向真实媒体传播管道的、多语言音频深度伪造检测评测挑战，并发布了大规模的数据集。这为评估模型在复杂现实条件下的鲁棒性提供了一个有价值的、更贴近实际的基准。短板：作为一篇典型的挑战赛总结报告，其核心贡献在于“搭建评测舞台”而非“提出新方法”，因此在算法创新性、深度理论分析和对获胜方法的深入探讨上存在固有局限。文章更像一份详实的“技术文档”和“结果公告”，而非一篇探索性的研究论文。 ...