音频深度伪造检测

Towards Trustworthy Audio Deepfake Detection: A Systematic Framework for Diagnosing and Mitigating Gender Bias

📄 Towards Trustworthy Audio Deepfake Detection: A Systematic Framework for Diagnosing and Mitigating Gender Bias #音频深度伪造检测 #公平性 #语音伪造检测 #模型评估 #偏差诊断 #缓解策略 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #公平性 | #语音伪造检测 #模型评估 | arxiv 学术质量 6.5/8 | 影响力 1.8/2 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Aishwarya Fursule (School of Computing, Wichita State University, Wichita, KS, USA) 通讯作者：Anderson R. Avila (Institut national de la recherche scientifique (INRS-EMT), Montreal, QC, Canada; INRS-UQO Mixed Research Unit on Cybersecurity, Gatineau, Canada) 作者列表：Aishwarya Fursule (Wichita State University), Shruti Kshirsagar (Wichita State University), Anderson R. Avila (INRS-EMT & INRS-UQO) 📌 核心摘要要解决什么问题：音频深度伪造检测系统存在性别公平性问题，但偏差的根源未知，且缓解方法零散、未经系统性比较。论文旨在提出一个系统框架，在应用缓解策略前先精确定位偏差来源。 ...

Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features

📄 Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features #音频深度伪造检测 #量子内核 #时频分析 #低资源 #音频安全 ✅ 6.5/10 | 前50% | #音频深度伪造检测 | #量子内核 | #时频分析 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Lisan Al Amin（论文原文上标“1”指示其所属机构）通讯作者：未说明作者列表：Lisan Al Amin^1， Rakib Hossain^1， Mahbubul Islam^2， Faisal Quader^3， Thanh Thi Nguyen^4^5 注意：原文中作者姓名后附有上标数字（如^1, ^2等），通常对应于文末或首页脚注的机构列表，表明每位作者的所属单位。但所提供的论文原文片段未包含具体的机构列表，因此无法明确各作者的具体机构信息。 💡 毒舌点评本文提出了一种将量子内核与音频频谱图的局部时频补丁结构相结合的新颖框架，其设计动机清晰，且为在NISQ时代构建硬件高效的量子电路提供了务实的思路。然而，其核心论证建立在一个规模极小（仅100个样本）、伪造生成方式极为简单（高斯噪声与频谱失真）且完全基于理想模拟的受控实验之上。这使得其声称的性能提升和实用价值显得非常初步，更像一个在严格控制条件下的概念验证，距离解决真实世界音频伪造检测的复杂性和鲁棒性挑战还非常遥远。 📌 核心摘要解决的问题：现有的音频深度伪造检测方法常将频谱图视为通用图像，忽略了其独特的时间-频率结构。此外，在数据有限、新攻击频发的低资源场景下，现有检测器的泛化能力面临挑战。方法核心：提出了Q-Patch框架。该方法首先从音频生成对数梅尔频谱图，然后将其划分为4×4的非重叠“补丁”，每个补丁被压缩为一个四维声学描述向量（平均激活、频谱质心、带宽、帧间相干性）。基于能量（平均激活）选择最显著的两个补丁，其8维特征被直接用作量子电路的旋转角度，通过一个浅层（深度≤3）、具有邻域纠缠的量子电路编码为量子态。最终，通过计算量子态的保真度作为量子内核，输入到量子支持向量机（QSVM）中进行分类。与已有方法相比新在哪里：表示层面：首次为量子内核学习设计了明确针对音频频谱图时间-频率结构的“补丁”表示，而非将其视为通用图像。量子电路层面：设计了轻量级、硬件高效的量子特征映射，限制了量子比特数（8个）和电路深度（≤3层），并引入了模拟空间邻接性的纠缠结构，更适合近期的NISQ设备。框架层面：提出了一种在低资源音频安全任务中应用量子内核的端到端框架，并系统地与规模匹配的基线进行对比分析。主要实验结果：在从LJ Speech数据集构建的100个样本的平衡子集（训练集80个样本，开发集20个样本）上，Q-Patch在开发集取得了0.87的AUROC和14.8%的EER，优于使用相同补丁特征的RBF-SVM（0.82 AUROC, 18.2% EER）和一个参数量≤100k（具体为98.4k）的微型CNN（0.85 AUROC, 16.3% EER）。内核分析显示，同类样本间相似度（约0.62-0.68）高于跨类相似度（约0.61-0.62），表明量子内核能捕捉与真实/伪造相关的结构。方法 AUROC EER (%) 复杂度 RBF-SVM 0.82 18.2 支持向量机 Tiny CNN 0.85 16.3 98.4K参数 Q-Patch 0.87 14.8 8量子比特图4展示了开发集上量子内核的相似度矩阵。图中样本按类别排序，可见同一类别内（对角线附近块）颜色更亮（相似度更高），不同类别间颜色较暗（相似度更低），直观证实了量子内核能诱导出与真实/伪造类别一致的相似性结构。 ...

Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes

📄 Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes #音频深度伪造检测 #内容审核 #模型评估 #数据集 #评测协议 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #模型评估 | #内容审核 #数据集 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Michael Soprano（University of Udine, Department of Mathematics, Computer Science and Physics）通讯作者：未说明（论文未明确指定通讯作者）作者列表：Michael Soprano（University of Udine, Department of Mathematics, Computer Science and Physics）、Andrea Cioci（University of Udine, Department of Mathematics, Computer Science and Physics）、Stefano Mizzaro（University of Udine, Department of Mathematics, Computer Science and Physics） 💡 毒舌点评这篇论文的亮点在于其严谨的实验设计，系统地量化了普通人在检测逼真假视频时的“集体盲点”，特别是对音视频联合伪造的无力感，为“眼见不一定为实”的当代困境提供了扎实的实证数据。但短板在于其结论高度依赖于特定的众包平台和数据集，且未与当前先进的自动检测模型进行对比，使得“人类筛查信号”到底有多强、能否与模型互补，仍是一个未解之谜。 ...

Deepfake Audio Detection Using Self-supervised Fusion Representations

📄 Deepfake Audio Detection Using Self-supervised Fusion Representations #音频深度伪造检测 #语音伪造检测 #自监督学习 #预训练 #数据增强 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #语音伪造检测 #预训练 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Khalid Zaman（论文中未提及具体机构）通讯作者：未说明作者列表：Khalid Zaman（未说明）、Qixuan Huang（未说明）、Muhammad Uzair（未说明）、Masashi Unoki（未说明）注：论文文本中未提供作者的所属机构信息。 💡 毒舌点评论文的亮点在于敏锐地抓住了“组件级伪造”这一更贴近现实的场景，并设计了一个将语音和环境声专用编码器进行跨模态融合的框架，思路清晰且实验验证了其有效性。然而，其短板在于“对比不充分”，论文中的基线系统相对简单，缺乏与当前主流深度伪造检测模型（如纯AASIST、或使用单一更强SSL模型的方法）的直接对比，使得其性能提升的绝对说服力打了一些折扣。 🔗 开源详情代码：https://github.com/OrgHuang/KHUM-ESDD2.git 模型权重：论文中未提及具体模型权重的托管链接（如HuggingFace/ModelScope）。论文中提到的预训练模型为XLS-R和BEATs，其权重信息需从引用的原始论文或相应平台获取。数据集：CompSpoofV2数据集。论文中提及该数据集是为ESDD2挑战赛引入的，但未提供公开的直接下载链接，应通过挑战赛官方渠道获取。 Demo：论文中未提及复现材料：论文中详细描述了实验设置，包括：使用PyTorch框架、在单张NVIDIA RTX 4090 GPU上运行、优化器为Adam（初始学习率1e-4）、批次大小64、训练12轮次、采用了加权多任务损失（语音和环境分支权重为1.0，原始分支权重为0.2）及排序正则化（权重0.5）、数据增强策略（多种混合方式和随机噪声注入）以及过采样方法。但论文中未明确提及是否公开完整的训练配置文件或预训练检查点。论文中引用的开源项目：论文中引用了以下开源项目（模型/工具），但未提供其GitHub等代码仓库链接，信息来源于其引用的原始论文。 XLS-R：预训练语音模型[20] BEATs：预训练环境音模型[21] AASIST：声学反欺骗分类器[22] Wav2vec 2.0：自监督学习模型[16] HuBERT：自监督学习模型[17] WavLM：自监督学习模型[18] 📌 核心摘要这篇论文旨在解决音频深度伪造检测中的新挑战：语音和环境声音可能被独立篡改的“组件级”伪造问题。其方法核心是提出一个双分支架构，分别使用针对语音的XLS-R和针对环境声的BEATs两个预训练模型提取特征，并通过一个匹配头建模两者差异以估计原始音频，同时利用多头跨注意力机制促进两个分支的信息交互。与主要将音频视为整体的传统方法相比，该工作的创新点在于显式地建模了语音和环境声组件的独立表示及其交互，以捕捉组件间的伪造不一致性。实验在CompSpoofV2数据集上进行，所提方法在测试集上取得了70.20%的F1分数，相比基线系统（63.27%）提升了近7个百分点，环境声音的等错误率（EER）也从42.79%显著降低至18.83%，证明了其有效性。该工作的实际意义在于为更复杂的、包含多种声音成分的真实世界音频伪造检测提供了可行的解决方案。其主要局限性在于实验对比主要局限于挑战赛基线，未与领域内其他先进模型进行广泛对比，且组件间的交互机制相对直接。 ...

Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings

📄 Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings #音频深度伪造检测 #自监督学习 #语音转换 #音素分析 #情感计算 ✅ 7.0/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #语音转换 #音素分析 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Vamshi Nallaguntla（威奇托州立大学）通讯作者：Anderson R. Avila（加拿大国家科学研究所 INRS-EMT）（注：论文未明确指定通讯作者，但提供了其邮箱，通常视为通讯作者）作者列表：Vamshi Nallaguntla（威奇托州立大学）、Shruti Kshirsagar（威奇托州立大学）、Anderson R. Avila（加拿大国家科学研究所 INRS-EMT；INRS-UQO网络安全联合研究中心） 💡 毒舌点评亮点：论文系统性地揭示了不同音素类别对情感语音转换伪造的敏感性层次，为“伪造语音哪里最容易露馅”提供了清晰的声学证据，这种可解释性分析比单纯追求一个检测准确率数字更有学术价值。短板：方法更像一个精致的“分析工具”而非一个即插即用的“检测系统”，且实验未与其他主流端到端检测器（如基于SSL的utterance-level方法）在相同情感伪造数据上对比性能，削弱了其实用价值的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中提到使用了预训练模型 WavLM，其权重链接为：https://huggingface.co/microsoft/wavlm-large 数据集：论文使用了 EmoFake 数据集，并声称发布了一个包含对齐转录和音素级 TextGrid 标注的策划数据集以支持可复现性。具体获取链接论文中未直接给出，但引用了相关论文 [18]，其对应的论文为 “EmoFake: A Multi-Emotion Emotional Voice Conversion Dataset”。通常此类数据集需从引用的原始论文或作者主页获取。论文基础数据集为 Emotional Speech Dataset (ESD) [19]。 Demo：论文中未提及。复现材料：论文详细描述了方法论（如使用 Montreal Forced Aligner 进行对齐，WavLM 提取特征，RBF-SVM 分类器，以及评估指标），但未提供具体的训练配置文件、检查点或详细复现指南。论文中引用的开源项目： Montreal Forced Aligner (MFA)：用于获取音素对齐。论文中提及，但未给出其项目的具体 URL。通常其项目主页为 https://montreal-forced-aligner.readthedocs.io/ 或 GitHub 仓库，但本文未直接引用。 WavLM：自监督语音模型。论文中给出了其 HuggingFace 链接：https://huggingface.co/microsoft/wavlm-large。 ASVspoof 挑战：音频深伪检测基准系列。论文中引用了系列论文，但未给出其数据集或代码的统一 URL。 PhonemeDF：一个用于深度伪造检测和自然度评估的大规模音素标注数据集 [16]。论文中引用但未给出其数据集或代码仓库的直接链接。 VAW-GAN-CWT (EVC1)：情感语音转换模型 [20]。论文中引用但未给出其代码或模型链接。 DeepEST (EVC2)：情感语音转换模型 [21]。论文中引用但未给出其代码或模型链接。 EmoFake：情感音频伪造检测数据集 [18]。论文中引用但未给出其数据集的直接下载链接。 📌 核心摘要本文针对情感语音转换带来的深度伪造检测挑战，提出了一种音素级的分析框架。现有检测方法常忽略语音内部的音素结构，而情感表达本身在音素层面就存在差异。方法核心是：使用蒙特利尔强制对齐工具对齐真实与合成语音的音素边界，提取每个音素片段的WavLM自监督嵌入，并计算真实与合成分布间的对称KL散度（KLD），最后用RBF核SVM进行音素级的二分类以评估可检测性。与已有方法相比，新在将音素级分析从一般TTS场景扩展至情感条件，并系统量化了音素敏感性与伪造可检测性的关联。主要实验结果显示：复杂元音（如/UH/， KLD高达64.29）和擦音（如/JH/， KLD达51.58）表现出最高的分布差异和分类准确率，而简单辅音（如/T/， KLD低至6.68）则更稳定。同时，KLD与分类准确率之间存在显著的正相关（如EVC1-Happy情绪下，元音相关系数r=0.75，p=0.0012）。实际意义在于，为设计更具可解释性和针对性的深度伪造检测器提供了理论依据和特征选择思路。主要局限性在于该框架更侧重于分析而非端到端检测，且实验数据仅限于两个说话人和两个特定的EVC系统，泛化性有待验证。 ...

Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization

📄 Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization #音频深度伪造检测 #滑动窗口 #数据集 #多语言 #评估指标 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #滑动窗口 | #数据集 #多语言 | arxiv 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Tung Vu（邮电学院，越南河内）通讯作者：Cong Tran（邮电学院，越南河内）作者列表：Tung Vu（邮电学院，越南河内）、Yen Nguyen（邮电学院，越南河内）、Hai Nguyen（邮电学院，越南河内）、Cuong Pham（邮电学院，越南河内）、Cong Tran（邮电学院，越南河内） 💡 毒舌点评亮点：该论文系统性地填补了“多区域语音修复伪造检测”这一重要但被忽视的细分领域的空白，从数据集构建（MIST）、检测框架（ISA）到专用评估指标（SF1@τ）提供了一套完整的解决方案，逻辑闭环。短板：当前提出的方法在零样本设置下性能极低（SF1@0.5仅1.2%），微调后虽大幅提升但仍属初步（SF1@0.5为31.4%），离实际可用还有很长的路要走，凸显了该任务本身的巨大挑战性。 🔗 开源详情代码：论文中提及代码已发布，但未提供具体的代码仓库链接（如 GitHub 链接）。模型权重：论文中未提及。数据集：MIST (Multi-region Inpainting Speech Tampering) 数据集。获取链接：https://huggingface.co/datasets/tung2308/MIST_SpeechInpaintingDataset Demo：论文中未提及。复现材料：论文中未提及具体的训练配置文件、检查点等复现材料。论文中引用的开源项目： Wav2Vec 2.0：https://huggingface.co/facebook/wav2vec2-base WavLM：https://huggingface.co/microsoft/wavlm-base-plus AASIST：https://github.com/JeonKang/AASIST (论文中引用但未提供直接链接，根据引用文献推断) RawNet2：论文中引用但未提供直接链接。 CosyVoice 3.0：论文中引用但未提供直接链接。 Gemini 2.0 Flash：论文中引用但未提供直接链接。 Multilingual LibriSpeech (MLS)：https://huggingface.co/datasets/openslr/librispeech_asr LEMAS-Dataset：论文中引用为开源语料库，但未提供直接链接。补充信息 [模型架构] 补充：论文详细解释了ISA各阶段超参数的设计动机。例如，粗扫描窗口 W=0.5s 的选择是基于MIST数据集中替换词的平均时长（0.3–0.6秒），确保每个伪造词至少被一个主导窗口覆盖。精细窗口 W'=0.15s 则提供了亚词级精度（±0.05秒）。同时，论文分析了ISA的计算效率：对于10秒音频，总分类器调用次数少于100次，在单GPU批处理下处理时间少于0.3秒，强调了其实用性。 [实验结果] 补充：论文图10提供了SF1@τ指标的具体计算示例，直观展示了IoU匹配、真阳性/假阳性/假阴性判定及最终F1分数的计算过程，这对理解新指标至关重要。此外，表12中零样本与微调性能的差距（SF1@0.5从1.2%跃升至31.4%）被进一步量化，明确指出骨干网络是性能瓶颈。 [消融实验] 补充：论文表10展示了粗扫描窗口大小 W 对性能的影响。结果显示 W=0.5s 是最佳平衡点，过小的窗口（0.15s）因Wav2Vec 2.0需要足够上下文而失效，过大的窗口（1.0s, 2.0s）则稀释了伪造信号，降低了敏感性。 [核心摘要/细节详述] 补充：论文在6.7节深入讨论了两个核心局限性：1）零样本性能低的根本原因是训练分布不匹配——骨干模型从未在部分修复数据上训练，其内部表征对单词级篡改不敏感；2）越南语表现差归因于三个具体因素：骨干模型对越南语音素不适应、ZipVoice生成的替换词平均时长更短（0.18秒 vs 英语0.26秒）、以及越南语声调可能被误判为说话人变异。这些分析比现有总结更为深入。 [与SOTA的差距] 补充：论文在零样本实验中明确指出，现有SOTA全段伪造检测器（如在ASVspoof上训练的分类器）对MIST伪造音频的伪造概率输出接近于0（例如，一个2词修复样本的p(fake)=0.0001），这直观量化了现有方法在细粒度修复场景下的完全失效。 📌 核心摘要要解决什么问题：针对日益逼真的部分语音修复（仅替换1-3个单词）伪造攻击，现有音频伪造检测基准和方法集中于整段伪造或单区域伪造，缺乏对多伪造区域、未知区域数量场景下的检测与定位能力。方法核心是什么：论文提出三位一体的解决方案：(1) MIST数据集：一个大规模、多语言（6种语言）的基准，每个音频包含1-3个独立修复的单词区域，伪造内容仅占2-7%。(2) ISA方法：一个与骨干网络无关的“迭代片段分析”框架，通过粗扫描、区域提议与合并、边界精炼三步，无需预先知道伪造区域数量，即可定位所有被篡改区域。(3) SF1@τ指标：一个基于时间交并比匹配的片段级F1分数，联合评估区域计数准确性和定位精度。与已有方法相比新在哪里：首次针对多区域、未知数量的语音修复伪造提出检测与定位问题；提供了首个专门用于此场景的大规模多语言数据集（MIST）；提出了无需预先知道区域数量的滑动窗口迭代定位框架（ISA）；定义了适用于此任务的专用评估指标（SF1@τ）。主要实验结果如何：在零样本设置下，现有最先进的全段伪造检测器几乎完全失效（给伪造音频打分接近0）。ISA框架在所有语言和变体上一致优于帧级和单窗口基线。例如，在英语测试集上，零样本ISA的SF1@0.3为9.1%，CA为26.2%。当骨干网络在MIST上微调后，性能大幅提升，整体SF1@0.5从1.2%升至31.4%（见表6、7、12）。实验结果如下表所示：方法 SF1@0.3 SF1@0.5 CA mIoU Frame-level 5.9 0.7 24.2 6.5 Single-window 6.9 1.0 24.5 7.2 ISA (ours) 8.1 1.2 25.1 7.8 表6：MIST测试集上多区域定位结果（所有语言聚合）实际意义是什么：为应对新型语音伪造威胁提供了关键的研究基准、方法思路和评估工具。揭示了当前主流伪造检测器的严重盲区，推动了细粒度语音取证领域的发展。主要局限性是什么：(1) 当前最佳性能（微调后SF1@0.5为31.4%）仍远未达到实用水平；(2) 骨干网络的性能是主要瓶颈，需要针对部分伪造任务的专门训练；(3) 方法在越南语等语言上性能较低，多语言泛化能力有待加强。 🏗️ 模型架构本文提出的ISA（迭代片段分析）框架是一个推理时的管道，用于将一个仅支持整段分类的伪造检测器，转化为能够定位多个伪造片段的系统。其整体架构如下图所示：图9：迭代片段分析（ISA）流程图。Stage 1产生粗置信度图并标记可疑窗口；Stage 2将可疑窗口合并为候选区域；Stage 3对每个候选区域进行精细分析，收紧边界并过滤误报。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未说明作者列表：Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University) 💡 毒舌点评这篇论文精准地抓住了现有深度伪造检测数据集在多语言（尤其是阿拉伯语-英语语码转换）场景下的巨大空白，并提供了一个规模空前的数据集（387k视频），填补了这一重要缺口。然而，其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑，虽然保证了多样性，但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成，其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力，而非论文提出的统一框架。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文明确表示将公开数据集，并提供了获取所需的EULA表单（图7）。访问需通过机构IRB批准和签署EULA。 Demo：未提及在线演示。复现材料：论文提供了数据生成管道的详细描述、关键工具（Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync）以及评估脚本的开源承诺。附录中提供了详细的文本操作提示（图6）、数据分布、扰动列表和身份重叠分析等复现相关信息。论文中引用的开源项目：Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。 📌 核心摘要问题：现有的深度伪造检测研究主要针对单语内容，忽略了全球普遍存在的多语言，特别是阿拉伯语-英语语码转换（CSW）场景下的检测挑战。方法核心：提出了ArEnAV，首个大规模阿拉伯-英语音视频深度伪造数据集，并设计了一个三阶段数据生成流程：利用GPT-4.1-mini进行受控的文本（语码转换）操纵，使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。创新点：数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容；生成流程专门针对阿拉伯语-英语混合内容设计；提供了多维度的基准测试，包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。主要实验结果：数据集对比：ArEnAV是目前最大的多语言音视频深度伪造数据集（387k视频，765小时），远超PolyGlotFake（15k）和Illusion（1.37M但非重点CSW）。伪造片段更长，检测更难。检测性能：现有SOTA模型（如BA-TFD+）在ArEnAV上性能大幅下降。在测试集上，BA-TFD+（AV-1M预训练）的AP@0.5仅为3.74，而微调后AUC可达79.97%。跨数据集泛化：在DFDC, FF++, CelebDF上表现良好的模型（如Face-X-Ray, LipForensics），在ArEnAV上AUC接近随机猜测（~50%）。用户研究：人类参与者的检测准确率仅为60.00%，定位精度（AP@0.5）仅0.79，证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。实际意义：为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准，推动了该领域向全球化、多样化方向发展。主要局限性：生成管道复杂，依赖外部模型（Whisper, GPT-4, TTS，唇同步模型），其质量和特性直接影响数据集质量；“含义+翻译”模式下，LLM有时未能充分改变语义；数据集目前仅限于阿拉伯语和英语。 🏗️ 模型架构本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道，其架构如图1所示：整个流程分为三个主要阶段： ...

Diffusion Reconstruction towards Generalizable Audio Deepfake Detection

📄 Diffusion Reconstruction towards Generalizable Audio Deepfake Detection #音频深度伪造检测 #扩散模型 #对比学习 #数据增强 #预训练 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #扩散模型 #对比学习 | #扩散模型 #对比学习 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Bo Cheng（南方科技大学电子与电气工程系）通讯作者：Fei Chen（南方科技大学电子与电气工程系）作者列表：Bo Cheng（南方科技大学电子与电气工程系）、Songjun Cao（腾讯优图实验室）、Xiaoming Zhang（南方科技大学电子与电气工程系）、Jie Chen（南方科技大学电子与电气工程系）、Long Ma（腾讯优图实验室）、Fei Chen（南方科技大学电子与电气工程系，通讯作者） 💡 毒舌点评本文巧妙地将“数据增强”提升到了“生成困难样本进行对抗训练”的哲学高度，利用扩散模型的随机性模拟未知攻击，思路新颖且实验验证有力。然而，其核心逻辑存在一个微妙的自证循环：用于检测的模型，其训练数据部分来源于同族模型（扩散模型）的重建，这可能使得模型对“生成痕迹”的识别能力被部分限定在“重建痕迹”上，对真正未知的、非重建类生成攻击的泛化上限有待进一步验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开本模型的权重。论文中提及使用了公开的预训练模型（XLS-R 300M）和重建模型（HiFi-GAN, DAC, Encodec, SemantiCodec）的权重。数据集：使用了公开数据集（ASVspoof 2019 LA, CodecFake, DiffSSD, WaveFake, ITW），论文中给出了部分数据集的引用链接。 Demo：未提及。复现材料：提供了较为详细的训练策略、超参数配置和架构描述（见第3.2节和第2.3、2.4节），但未提供完整的复现配置文件或脚本。论文中引用的开源项目： HiFi-GAN: https://github.com/jik876/hifi-gan DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec Encodec: https://github.com/facebookresearch/encodec SemantiCodec: https://huggingface.co/haoheliu/SemantiCodec/tree/main XLS-R 300M: https://github.com/facebookresearch/fairseq AASIST：论文引用了相关论文，但未提供具体开源链接。 📌 核心摘要本文针对音频深度伪造检测（ADD）模型泛化能力不足的挑战，提出了一种基于扩散重建的困难样本生成框架。其核心思想是：一个能够区分困难样本（如重建后的音频）的模型，必然也能处理简单的伪造样本。方法上，论文首先评估了HiFi-GAN、DAC、Encodec和SemantiCodec（基于扩散）等多种重建范式，发现基于扩散的方法能最有效地生成具有泛化价值的困难样本。其次，为增强特征判别力，设计了正则化辅助对比学习（RACL）目标函数，它结合了标准对比损失、聚焦于困难样本的增强对比损失以及用于类内紧凑性的方差正则化损失。最后，采用预训练的XLS-R 300M提取多层特征并经自适应聚合后，送入AASIST进行分类。实验在五个多样化的测试集（ASVspoof, ITW, DiffSSD, WaveFake, CodecFake）上进行。主要结果表明，集成扩散重建、多层聚合和RACL的最佳模型（RACL Diffusion）取得了8.247%的平均EER，相比基线（15.789%）相对降低了约47.8%。消融实验和t-SNE可视化证实了RACL中各组件对提升类间距离和类内紧凑性的作用。该研究的实际意义在于提供了一种提升ADD模型泛化能力的有效数据驱动和学习策略，其局限性在于自证循环的潜在风险以及在个别数据集（如ASVspoof）上性能略有下降。 ...

Similarity Choice and Negative Scaling in Supervised Contrastive Learning for Deepfake Audio Detection

📄 Similarity Choice and Negative Scaling in Supervised Contrastive Learning for Deepfake Audio Detection #音频深度伪造检测 #对比学习 #自监督学习 #鲁棒性 #基准测试 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #对比学习 #自监督学习 | #对比学习 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jaskirat Sudan (University of Michigan, Dearborn) 通讯作者：未说明（论文未明确指定）作者列表：Jaskirat Sudan (University of Michigan, Dearborn)、Hashim Ali (University of Michigan, Dearborn)、Surya Subramani (University of Michigan, Dearborn)、Hafiz Malik (University of Michigan, Dearborn) 💡 毒舌点评亮点：实验设计极其严谨，通过固定所有其他变量（模型、优化器、增强等），孤立地研究了相似度函数和负样本队列的影响，并揭示了二者之间复杂的非单调交互关系，为该领域的实践者提供了扎实的调参依据。短板：所有结论都建立在单一模型（XLS-R 300M）和单一训练集（ASVspoof 2019 LA）上，其发现是否能迁移到其他自监督模型或其他伪造检测数据集上，文中未做任何探讨，这在一定程度上削弱了结论的普适性。 ...

A Parameter-Efficient Multi-Scale Convolutional Adapter for Synthetic Speech Detection

📄 A Parameter-Efficient Multi-Scale Convolutional Adapter for Synthetic Speech Detection #音频深度伪造检测 #自监督学习 #语音伪造检测 #迁移学习 #参数高效微调 ✅ 7.0/10 | #音频深度伪造检测 #自监督学习 👥 作者与机构第一作者：Yassine El Kheir（DFKI, Germany；Gretchen AI, Germany）通讯作者：未说明作者列表：Yassine El Kheir（DFKI, Germany；Gretchen AI, Germany）、Fabian Ritter-Guttierez（Nanyang Technological University, Singapore）、Arnab Das（DFKI, Germany；Gretchen AI, Germany）、Tim Polzehl（DFKI, Germany；Gretchen AI, Germany）、Sebastian Moller（DFKI, Germany；Technical University of Berlin, Germany） 💡 毒舌点评亮点在于设计了一个巧妙的参数高效适配器，用仅1%的参数就显著超越了全微调方法，在效率与性能的权衡上取得了亮眼成绩。但短板也很明显：论文没有提供代码或模型链接，让复现成了“开卷考试但没带书”；另外，对多尺度特征融合的物理意义（如具体哪些特征对应短时/长时伪影）缺乏更深入的可视化分析或解释。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了多个公开的基准数据集（ASVspoof系列， ITW， MLAAD），但未提供经过处理的或增强后的数据集。 Demo：未提供在线演示。复现材料：论文提供了较为详细的实现细节（超参数、优化器设置、数据增强方法等），但未提供训练脚本、配置文件或预训练模型，复现仍需较多工作。论文中引用的开源项目：引用了Wav2Vec2.0/XLSR， HuBERT， WavLM， AASIST等模型，并提到了LoRA、Houlsby Adapter、ConvAdapter等方法作为对比基线，但未明确说明是否依赖特定开源实现。 📌 核心摘要这篇论文针对现有基于自监督学习（SSL）的语音合成检测模型在全微调时计算成本高、而通用参数高效微调（PEFT）方法缺乏捕捉音频多尺度时间伪影的特定归纳偏置这一问题，提出了一种新的多尺度卷积适配器（MultiConvAdapter）。该方法的核心是在SSL骨干网络（如XLSR）的Transformer层中的多头自注意力（MHSA）模块后，插入一个并行的、使用不同大小卷积核的深度卷积模块，使模型能同时学习短时伪影和长时失真。与已有方法（如LoRA、Houlsby适配器）相比，新方法显式地引入了针对音频时间结构的先验知识。主要实验结果表明，在五个公开数据集（ASVspoof LA19、DF21、ITW、MLAAD、ASV5）上，MultiConvAdapter仅使用3.17M可训练参数（仅为317M骨干模型的1%），其平均EER（等错误率）达到5.91%，相比全微调方法（7.07%）相对降低了16.41%，并优于其他PEFT方法（如LoRA为8.43%）。该方法的意义在于为部署高效、鲁棒的合成语音检测系统提供了一种可行的参数高效解决方案。主要局限性在于论文未公开代码和模型，且分析局限于标准数据集，未探讨在极端对抗环境或更复杂编解码条件下的泛化能力。 ...