音频伪造检测

Audio Cross Verification Using Dual Alignment Likelihood Ratio Test

📄 Audio Cross Verification Using Dual Alignment Likelihood Ratio Test 标签：#音频伪造检测 #无监督学习 #可解释性 #音频理解 #Transformer 6.5/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音频伪造检测 | #无监督学习 | #可解释性 #音频理解 | arxiv 👥 作者与机构第一作者：未说明（论文中仅列出作者名，未明确标识第一作者）通讯作者：未说明作者列表：Heidi Lei, Arm Wonghirundacha, Irmak Bukey, TJ Tsai 机构：未说明 💡 毒舌点评本文提出了一个基于外部一致性验证的音频取证新范式，其核心方法双重对齐似然比检验（DA-LRT）在框架设计上颇具巧思，可解释性也优于黑箱模型。然而，该工作的“阿喀琉斯之踵”在于其实验评估：仅在一个干净、单说话人、理想压缩的DAPS数据集上进行测试，且篡改素材来自同一录音，这种过于“温室”般的实验环境，极大地削弱了结论对真实、复杂、对抗性场景的说服力，使其实际应用价值大打折扣。论文更像一个概念验证，而非一个已准备好应对现实挑战的系统。 ...

Component-Level Ensemble Fusion for Speech and Environmental Sound Deepfake Detection

📄 Component-Level Ensemble Fusion for Speech and Environmental Sound Deepfake Detection 标签：#语音伪造检测 #模型集成 #音频伪造检测 #自监督学习 #音频理解 6.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音伪造检测 | #模型集成 | #音频伪造检测 #自监督学习 | arxiv 👥 作者与机构第一作者：André Runewicz（Fraunhofer SIT）通讯作者：未说明作者列表：André Runewicz（Fraunhofer SIT）、Karla Schäfer（Fraunhofer SIT）、Martin Steinebach（Fraunhofer SIT） 💡 毒舌点评一篇典型的面向特定挑战赛的系统技术报告，工程整合能力值得肯定，但学术创新性不足，且完全不开源的做法严重削弱了其作为学术论文的价值。它更像是一个参赛团队的技术总结，而非一篇能推动领域进展的研究。 ...

PC-Mix: Partial-Component Audio Spoofing Detection under Mixed Speech and Environmental Sound Conditions

📄 PC-Mix: Partial-Component Audio Spoofing Detection under Mixed Speech and Environmental Sound Conditions 标签：#音频伪造检测 #多任务学习 #音频理解 #Transformer #模型评估 8.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.9/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #音频伪造检测 | #多任务学习 | #音频理解 #Transformer | arxiv 👥 作者与机构第一作者：Zhenshan Zhang（Zhejiang University & National University of Singapore）通讯作者：Ming Li（National University of Singapore）作者列表：Zhenshan Zhang（Zhejiang University & National University of Singapore）、Xueping Zhang（Zhejiang University）、Linxi Li（Zhejiang University）、Yechen Wang（Zhejiang University）、Ming Li（National University of Singapore） 💡 毒舌点评论文敏锐地抓住了“部分组件欺骗”这一更贴近真实场景的威胁模型，并构建了首个包含环境声音部分欺骗的数据集PC-Mix，数据构建流程设计细致，评估协议全面，为后续研究提供了坚实基础。但实验部分缺少与当前最强部分欺骗检测方法的直接对比，削弱了其声称的贡献力度；且其影响力主要局限于音频安全这一相对垂直的领域。 ...

SynSFX: Multi-Model Sound Effects Synthesis Dataset for Deepfake Detection and Evaluation

📄 SynSFX: Multi-Model Sound Effects Synthesis Dataset for Deepfake Detection and Evaluation #音频伪造检测 #基准测试 #数据集 #迁移学习 #领域适应 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #音频伪造检测 | #迁移学习 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Linxi Li（University of Warwick, WMG）、Yuncong Yu（机构未说明，标记为同等贡献）通讯作者：未说明作者列表：Linxi Li（University of Warwick, WMG）、Yuncong Yu（机构未说明）、Qianwei Guo（机构未说明）、Liwei Jin（机构未说明）、Yechen Wang（机构未说明）、Carsten Maple（University of Warwick, WMG） 💡 毒舌点评这篇论文的贡献清晰但格局有限。作为一个基准数据集工作，SynSFX通过"共享提示词子集"为理解生成器artifact提供了一个精妙的诊断工具，其实验有力地揭露了现有检测器学到的只是"生成器指纹"而非"伪造痕迹"这一尴尬现实。然而，作为一篇顶会投稿，其定位略显尴尬。它既缺乏与新近数据集（如CompSpoofV2）在统一基准上的横向PK来确立自身压倒性优势，又完全没有提出任何新的检测方法或算法框架来尝试解决它自己所揭示的难题。这使得整篇论文更像一份深入且严谨的"问题陈述报告"，而非一个完整的、有破有立的解决方案。这项工作是扎实且有洞察力的，但它的贡献边界非常清晰，距离方法论的突破尚有一步之遥。 ...

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

📄 HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection #音频伪造检测 #自监督学习 #图神经网络 7.9/10 | 创新 1.1/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.9/10 | 前25% | #音频伪造检测 | #自监督学习 | #图神经网络 | arxiv 👥 作者与机构第一作者：Qing Wen（浙江大学区块链与数据安全全国重点实验室，浙江大学上海高等研究院）通讯作者：Zhongjie Ba（浙江大学，杭州高新技术产业开发区（滨江）区块链与数据安全研究院），Peng Cheng（浙江大学，杭州高新技术产业开发区（滨江）区块链与数据安全研究院）作者列表：Qing Wen（同上），Haohao Li（浙江大学），Zhongjie Ba（浙江大学），Peng Cheng（浙江大学），Miao He（浙江大学），Li Lu（浙江大学），Kui Ren（浙江大学） 💡 毒舌点评本文利用O-信息理论优雅地诊断了音频深伪检测中的高阶交互缺失问题，并祭出超图与原型学习这对组合拳，立意颇有新意，实验覆盖也堪称广博。然而，方法本质上仍是Wav2Vec2-AASIST的“嫁接增强版”，原型引导与关系放大的协同缺乏深层理论论证，更像依赖工程直觉的拼装。更致命的是，在强压缩场景下性能反而开倒车，作者对何时该用高阶、何时该信冗余仍语焉不详，让整个框架的“协同”假设显得脆弱而不可控。 📌 核心摘要要解决的问题：现有音频深伪检测方法依赖局部或成对关系，忽视了由多个频谱-时间分量联合涌现的高阶协同交互（HOIs）。论文旨在显式建模HOIs，以捕获更具泛化性的伪造痕迹。方法核心：提出HyperPotter框架，以超图（hypergraph）代替传统成对图。利用由类感知原型库引导的模糊C均值（FCM）聚类构建软超边捕获高阶关系，并设计了关系伪影放大模块以增强微弱伪造线索。与已有方法相比的新在哪里：首次引入O-信息量化音频深伪检测中的冗余-协同模式，为高阶关系建模提供理论动机。将对称成对的图学习扩展为非成对的超图学习，并创新性地引入跨批次原型记忆机制，为FCM超边构建注入长期结构先验。主要实验结果：在仅用ASVspoof2019 LA训练的条件下，HyperPotter在13个测试集上相比Wav2Vec2-AASIST基线，平均相对EER降低12.68%，在性能改善的11个集上，该降幅高达22.15%。具体而言，In‑the‑Wild EER从7.58%降至5.72%，FoR从4.24%降至3.89%，LibriVoc EER从6.96%降至2.55%。但在重度编解码场景ASVspoof2021 LA（2.48%→3.94%）和ASVspoof5（13.38%→16.04%）上性能出现明显退化。实际意义：证明了高阶关系建模能有效捕获可迁移的伪造痕迹，作为一种“协同专家”，它可在多专家系统中与“冗余专家”互补，提升复杂场景下的整体检测鲁棒性。主要局限性：强编解码/信道失真会“掩盖”高阶依赖，导致该方法退化成噪声源；模型在参数量近乎不变的情况下，训练和推理开销显著增加，部署友好度差。 🔗 开源详情代码：https://github.com/HyperPotter/HyperPotter 模型权重：论文及GitHub仓库声明提供了预训练模型，位于上述仓库中。数据集：论文使用多个公开数据集（ASVspoof 2019 LA, 2021 LA/DF, 2024/5, In-the-Wild, FoR, Codecfake, ADD 2022/2023 系列, LibriVoc, SONAR 等），需遵循各数据集官方协议获取。复现材料：GitHub仓库提供代码、预训练模型及详细附录（超参、增强策略），复现可行性高。关键依赖项目： Wav2Vec2-AASIST (基线): https://github.com/TakHemlata/Wav2Vec2-AASIST XLS-R: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec RawNet2: https://github.com/asvspoof-challenge/2021/tree/main/LA/Baseline-RawNet2 RawBoost: https://github.com/TakHemlata/RawBoost MUSAN: https://www.openslr.org/17/ 🏗️ 方法概述和架构 HyperPotter将音频深伪检测形式化为图级分类任务。 ...

MusicDET: Zero-Shot AI-Generated Music Detection

📄 MusicDET: Zero-Shot AI-Generated Music Detection #音频伪造检测 #零样本 #生成对抗网络 6.1/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.6/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.1/10 | 前50% | #音频伪造检测 | #生成对抗网络 | #零样本 | arxiv 👥 作者与机构第一作者：Chaolei Han（东南大学网络空间安全学院）通讯作者：Hongsong Wang（东南大学计算机科学与工程学院，新一代人工智能技术与交叉应用重点实验室（东南大学），教育部）/ Jie Gui（东南大学网络空间安全学院，紫金山实验室，区块链应用监管与管理工程研究中心（东南大学），教育部）作者列表：Chaolei Han（东南大学网络空间安全学院）、Hongsong Wang（东南大学计算机科学与工程学院，新一代人工智能技术与交叉应用重点实验室（东南大学），教育部）、Jie Gui（东南大学网络空间安全学院，紫金山实验室，区块链应用监管与管理工程研究中心（东南大学），教育部） 💡 毒舌点评本文将Normalizing Flows首次引入AI生成音乐检测，并构建了一个仅需真实音乐训练的零样本框架，思路简洁且具有实用性。然而，方法的技术深度有限，核心架构基本复用了Glow流程，实验中对真实后处理的鲁棒性极差（如MP3压缩后EER飙升至41.75%），且写作中多处符号与表格排版混乱，影响了可信度和可读性。 📌 核心摘要本文针对AI生成音乐检测中，现有鉴别器依赖已知生成器训练、跨生成器泛化差的痛点，提出了一种全新的零样本设定（仅用真实音乐训练）。方法核心是基于频率引导的Normalizing Flows（MusicDET）对真实音乐的时频能量谱分布进行概率建模，通过评估样本似然度来判断是否为AI生成。与以往需要生成器样本训练的分类器相比，该框架天然具有生成器无关的泛化能力。实验在FakeMusicCaps和SONICS数据集上进行，零样本MusicDET在FakeMusicCaps上的平均EER为4.51%，显著优于所有非零样本基线（如W2V2-AASIST的11.46%、SpecTTTra-α的17.63%）；当利用少量AI样本引入class-conditional先验后，EER可进一步降至0.89%；在SONICS上class-conditional MusicDET甚至达到0.00%的EER。在ASVspoof 2019 LA和CtrSVDD上的迁移实验也展现出一定通用性。论文还评估了模型在EnCodec重建音乐上的检测能力，并进行了Leave-one-subdomain-out的泛化测试。实际意义在于为音乐鉴伪提供了一种无需持续更新生成器指纹的轻量级检测方案。主要局限是对严重音频后处理（如强压缩、加噪、变调）极为敏感，零样本检测EER在MP3 64kbps压缩下飙升至41.75%，且模型分析局限于时频谱能量，对旋律、和声等高层音乐结构建模不足。 🔗 开源详情代码：https://github.com/Chaolei98/MusicDET 模型权重：论文中未提及数据集： FakeMusicCaps (Comanducci et al., 2025)：基于 MusicCaps 提示词，使用 5 个文本到音乐生成器合成的数据集，论文中未提供直接下载链接，可参考原论文获取。 SONICS (Rahman et al., 2025)：包含真实音乐（来自 Genius Lyrics Dataset）和 Suno/Udio 生成的音乐，论文中未提供直接下载链接，可参考原论文获取。 ASVspoof 2019 LA (Todisco et al., 2019)：公开数据集，可通过 https://datashare.ed.ac.uk/handle/10283/3336 获取。 CtrSVDD (Zang et al., 2024)：论文中未提供直接下载链接，可参考原论文获取。 FMA-medium (Defferrard et al., 2017): 用于EnCodec重建评测，可通过 https://github.com/mdeff/fma 获取。 Demo：论文中未提及复现材料：预处理：所有音频重采样到 16kHz、单声道，裁剪/填充至 4 秒。 STFT 参数：n_fft=512, hop_length=160, win_length=512。训练超参数：batch size 64，Adam 优化器，初始学习率 5e-4，训练 10 epoch。数据增强：使用 SpecAugment 随机遮罩时频区域。模型结构：频带数=2，每个频带内流步骤数 K=2，真实音乐高斯先验均值为 5，假音乐先验均值为 -5（类条件设置）。硬件：单卡 NVIDIA RTX 4090（24GB 显存）。未提供训练检查点。论文中引用的开源项目： MusicGen：https://github.com/facebookresearch/audiocraft EnCodec：https://github.com/facebookresearch/encodec AASIST：https://github.com/clovaai/aasist MERT：https://github.com/yizhilll/MERT Wav2Vec 2.0 (fairseq)：https://github.com/pytorch/fairseq WavLM：https://github.com/microsoft/unilm/tree/master/wavlm SpecAugment：https://github.com/tensorflow/lingvo ViT (Vision Transformer)：https://github.com/google-research/vision_transformer ConvNeXt：https://github.com/facebookresearch/ConvNeXt Glow：https://github.com/openai/glow 🏗️ 方法概述和架构 MusicDET的整体架构是一个基于Normalizing Flows的单类（真实音乐）密度估计器，其核心流程如下： ...

Audio Spoof Detection with GaborNet

📄 Audio Spoof Detection with GaborNet #音频伪造检测 #信号处理 #数据增强 #时频分析 ✅ 评分：6.5/10 | arxiv 👥 作者与机构第一作者：Waldemar Maciejko (根据论文标题及内容，未明确标注所属机构，推断为某大学或研究机构研究人员) 通讯作者：未明确标注其他作者：无机构信息：论文全文未提供作者所属机构信息。根据arXiv页面及论文内容推断，作者可能来自波兰某大学（如姓名暗示）或研究机构，但无法确认具体实验室/课题组。 💡 毒舌点评亮点：论文系统性地评估了Gabor滤波器和LEAF前端在音频伪造检测任务中的应用，并提供了详尽的消融实验和数据增强对比，工作扎实。槽点：创新性更像是“技术报告”而非“科研突破”，把Gabor滤波器塞进现成架构就完事了；结论有时过于绝对（如“LEAF在RawGAT-ST上效率低下”），缺乏更深层的机理分析；数据增强部分，SpecAugment无效就不展示了，选择性报告结果有点“报喜不报忧”。 🔗 开源详情代码：已开源。论文页面提供了指向GitHub仓库的链接（标题下方的“GitHub Issue”以及页面中的“GitHub”按钮）。模型权重：论文中未明确提及是否公开发布训练好的模型权重。数据集：实验使用公开的ASVspoof 2019 LA数据集，以及用于增强的RIR和MUSAN数据集，这些均可公开获取。预训练权重：未提及。在线Demo：未提及。引用的开源项目：论文依赖PyTorch、Torchaudio等框架，并提及使用了Torchaudio Sox和Ffmpeg后端进行编解码增强。 📌 核心摘要本论文旨在解决传统SincNet前端在音频伪造检测中因有限长度sinc函数截断导致的频率泄漏问题。作者提出使用可学习的Gabor滤波器组（GaborNet）替代SincNet，并将其集成到两种先进的端到端检测架构RawNet2和RawGAT-ST中。同时，论文探索了将LEAF（Learnable Frontend for Audio Classification）的完整组件（包括高斯低通池化和可学习PCEN归一化）作为前端。实验在ASVspoof 2019逻辑访问数据集上进行，系统评估了不同前端、架构及数据增强方法（包括编解码转换、房间脉冲响应和噪声添加）的效果。主要发现包括：GaborNet前端对RawNet2架构有轻微提升（EER从4.131%降至4.025%），但对更复杂的RawGAT-ST架构反而有害；完整的LEAF前端在RawNet2上效果最佳（EER 3.807%），但在RawGAT-ST上性能下降；在数据增强方法中，仅编解码转换被证明有效。论文的贡献在于为音频伪造检测提供了新的可学习前端选择，并通过详实的实验揭示了不同组件组合的有效性，但其方法的创新性和普适性有待进一步验证。 🏗️ 模型架构论文主要研究和修改了两种端到端音频伪造检测架构：RawNet2 和 RawGAT-ST。核心改动在于将它们的输入前端从SincNet替换为基于Gabor滤波器的GaborNet或更完整的LEAF前端。 1. Gabor RawNet2 架构流程：输入：原始音频波形，固定长度为64,600个样本（约4秒@16kHz）。前端 (GaborNet/LEAF)： Gabor卷积层：使用N个可学习的复数值Gabor滤波器（中心频率η_n，带宽σ_n）对输入波形进行一维卷积。论文中RawNet2使用1024个滤波器，长度20；RawGAT-ST使用128个滤波器，长度70。取模平方：将复数卷积结果取模平方，转化为实数序列，得到子带希尔伯特包络。高斯低通池化：进行步长为3的下采样，使用参数化的高斯脉冲响应作为低通滤波器。可学习PCEN归一化：应用可学习的感知归一化（Per-Channel Energy Normalization），参数包括平滑系数s、压缩指数r等，所有参数联合学习。最大池化：进一步下采样。批归一化+SeLU激活。特征提取主体 (RawNet2)：残差块组1：包含3个残差块，每个块内有两层一维卷积（核大小3，通道数128）、批归一化、LeakyReLU激活，以及最大池化。每个残差块输出后应用特征图缩放（FMS）机制，通过一个小型子网络生成缩放因子r_f，对特征图c_f进行c'_f = (c_f * r_f) + r_f的变换，以强调重要特征。残差块组2：包含3个类似的残差块，但卷积通道数增加到128。聚合与分类：自适应平均池化：将时序特征聚合为固定长度。全连接层1：将特征映射到1024维。门控循环单元（GRU）：128维隐藏层，用于聚合帧级特征为话语级嵌入。全连接层2：映射到2维输出。 LogSoftmax：输出“真实”或“伪造”的对数概率。 2. Gabor RawGAT-ST 架构流程： ...