音频深度伪造检测

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #迁移学习 #频谱分析 #基准测试 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #预训练 | #迁移学习 #频谱分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lam Pham* (奥地利技术研究所数字安全与安全中心，奥地利) 通讯作者：Son Le† (越南孙德盛大学) 作者列表： Lam Pham* (奥地利技术研究所数字安全与安全中心，奥地利) Khoi Vu* (FPT大学，越南) Dat Tran* (FPT大学，越南) Phat Lam (胡志明市理工大学，越南) Vu Nguyen (越南孙德盛大学) David Fischinger (奥地利技术研究所数字安全与安全中心，奥地利) Alexander Schindler (奥地利技术研究所数字安全与安全中心，奥地利) Martin Boyer (奥地利技术研究所数字安全与安全中心，奥地利) Son Le† (越南孙德盛大学) 💡 毒舌点评亮点：论文对“环境声音深度伪造检测”这一新兴任务进行了堪称教科书级别的系统性实验评估，清晰揭示了“声音场景”与“声音事件”伪造检测的差异性，并证明了微调预训练模型（如BEATs）远优于从头训练，为后续研究提供了明确的基线和方向。短板：核心方法（微调BEATs）本身并非本文原创，创新更多体现在训练策略（三阶段）和实验设计上；此外，论文声称开源但提供的链接指向arXiv页面，具体的代码和模型权重获取方式在节选中未明确，降低了即刻复现的便利性。 ...

Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

📄 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages #音频深度伪造检测 #预训练 #多语言 #语音大模型 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Girish（UPES, India）与 Mohd Mujtaba Akhtar（Veer Bahadur Singh Purvanchal University, India）为共同第一作者通讯作者：Orchid Chetia Phukan（IIIT-Delhi, India），邮箱：orchidp@iiitd.ac.in 作者列表： Girish（UPES, India） Mohd Mujtaba Akhtar（Veer Bahadur Singh Purvanchal University, India） Orchid Chetia Phukan（IIIT-Delhi, India） Arun Balaji Buduru（IIIT-Delhi, India） 💡 毒舌点评这篇论文在填补印度语言CodecFake检测空白方面做得非常扎实，SATYAM模型的双曲空间对齐设计也颇具巧思，为多模态融合提供了新思路。然而，其所有“实战”演练都发生在精心构造的合成数据集上，缺乏对真实世界中可能遇到的噪声、信道失真、对抗攻击等复杂因素的评估，这使得其宣称的“鲁棒性”仍停留在实验室阶段。 ...

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #音频分类 #数据增强 #音频安全 ✅ 评分：6.5/10 | arxiv 👥 作者与机构第一作者：Lam Pham (奥地利理工学院 AIT，数字安全与安全中心) 通讯作者：Son Le (Ton Duc Thang University, Vietnam) 其他作者： Khoi Vu, Dat Tran (FPT University, Vietnam) Phat Lam (HCM University of Technology, Vietnam) David Fischinger, Alexander Schindler, Martin Boyer (奥地利理工学院 AIT，数字安全与安全中心) 💡 毒舌点评亮点：论文像一本详尽的“菜谱”，把频谱图、网络架构、预训练模型这些“食材”挨个试了个遍，还精心设计了“三阶段烹饪法”（训练策略），最终端出了一盘在特定数据集上色香味俱全的“菜”（高准确率）。槽点：创新性主要体现在“系统性尝试”和“策略调优”上，缺乏让人眼前一亮的“新菜式”（核心方法创新）。而且，这盘“菜”主要用的还是别人家的“高级食材”（预训练BEATs模型）。 🔗 开源详情代码：论文在arXiv页面明确提供了GitHub链接，表明代码已开源。模型权重：论文中未明确说明是否公开预训练或微调后的模型权重。通常此类研究会随代码一起发布。数据集：使用了公开的基准数据集EnvSDD和ESDD-Challenge-TestSet，论文中提供了数据集的详细构成和获取参考文献。预训练权重：使用了公开的预训练BEATs模型。在线Demo：论文中未提及。引用的开源项目：Pytorch框架、Adam优化器、BEATs模型、EnvSDD数据集。 📌 核心摘要本文针对环境声音（如声音事件、声音场景）的深度伪造检测这一新兴任务，提出了一个系统的深度学习框架。核心贡献在于通过大量实验，系统评估了不同频谱图（MEL, CQT, Gammatone）、多种CNN架构（ResNet, Inception等）以及预训练模型（BEATs）在该任务上的表现，并验证了声音事件与声音场景的伪造检测应作为独立任务处理。关键方法包括：1）提出以Gammatone频谱图作为有效输入特征；2）设计了一个包含多损失函数训练、Mixup微调和骨干网络冻结的三阶段训练策略；3）发现并验证了微调预训练的BEATs模型远优于从头训练。主要效果是在EnvSDD测试集上取得了0.98的准确率和0.99的AUC，并在跨数据集测试（ESDD-Challenge-TestSet）中展现了泛化能力。局限性在于方法创新性有限，主要依赖现有技术的组合与优化，且跨数据集性能有显著下降，表明领域泛化仍是挑战。 🏗️ 模型架构论文提出了一个统一的深度学习框架用于环境声音深度伪造检测（ESDD），其整体流程如下： ...

HCFD: A Benchmark for Audio Deepfake Detection in Healthcare

📄 HCFD: A Benchmark for Audio Deepfake Detection in Healthcare #音频深度伪造检测 #状态空间模型 #基准测试 #超几何学习 #医疗健康 📝 评分：5.0/10 | arxiv 👥 作者与机构第一作者： Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) † (论文标注为Equal contribution as a first author) 通讯作者： Muskaan Singh (Ulster University, UK) (论文标注为Corresponding author) 其他作者： Girish (UPES, India) † (论文标注为Equal contribution as a first author) 💡 毒舌点评亮点：填补了医疗音频领域深伪检测的空白，像个“音频法医”一样专门为病态语音设计检测工具，数据集构建和实验设计非常系统、扎实。槽点：用了“Mamba”、“超几何空间”这些时髦词汇包装，但核心是“多个证据向量+原型聚类”的思路，有种给传统方法穿上了最新款外套的感觉。另外，实验都在干净的数据集上做，真放到嘈杂的远程医疗通话里，这97%的准确率估计得打个对折。 🔗 开源详情代码：论文声明将在GitHub提供代码和评估资源（链接：https://helixometry.github.io/HCFD/）。但截至论文阅读时，该链接内容可能尚未完全公开。模型权重：未明确提及是否公开训练好的PHOENIX-Mamba模型权重。数据集：论文声明将提供HCFK数据集的划分文件和生成管道。数据集本身基于多个现有公开医疗语音语料库构建，需遵循原语料库的许可协议获取。预训练权重：实验中使用的预训练模型（PaSST, WavLM, Wav2Vec2, Whisper等）均为公开模型，链接已在论文中提供。在线Demo：未提及。依赖的开源工具：依赖多个公开的神经音频编解码器实现（SpeechTokenizer, Descript Audio Codec, Encodec, SoundStream, Funcodec, Audiodec, SNAC），链接已在附录A中提供。 📌 核心摘要本文针对医疗健康领域中神经音频编解码器生成的语音深伪检测问题，提出了一个全新的研究任务（HCFD）和基准数据集（HCFK）。研究发现，在健康语音上训练的现有深伪检测模型在病态语音上性能显著下降。为此，论文首先验证了预训练音频模型（如PaSST）能更好地应对病理语音带来的变异性。更重要的是，本文提出了一个名为PHOENIX-Mamba的几何感知检测框架，该框架通过Mamba骨干网络建模长程上下文，并利用超几何空间中的多个原型来表征和聚类异质的伪造语音模式，从而在多个临床条件（抑郁、阿尔茨海默症、构音障碍）和语言（英语、中文）上取得了优于预训练模型基线的性能。工作为医疗音频安全提供了重要的基准和初步解决方案，但其方法在真实复杂场景下的鲁棒性以及数据集的覆盖广度仍有待提升。 ...

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者（推断）：Benjamin Chou（普渡大学，Purdue University）通讯作者（推断）：Yi Zhu（Reality Defender Inc.），Surya Koppisetti（Reality Defender Inc.）其他作者：无机构详情： Benjamin Chou：普渡大学（Purdue University），论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu：Reality Defender Inc.（美国/加拿大，邮箱后缀为@inrs.ca，INRS为加拿大魁北克大学研究所）。 Surya Koppisetti：Reality Defender Inc.。 💡 毒舌点评亮点：把大模型（ALM）的“思考”能力用在了音频安全这个“脏活累活”上，还搞出了个“左右互搏”（PCR）的套路让模型自己挑刺、去伪存真，思路相当清奇，结果在真实世界数据上效果拔群。槽点：最好的“厨师”（Phase-1证据生成）用的是谷歌的“秘制酱料”（Gemini），自己家“厨房”（开源ALM）的灶台还没完全搭好（AF3指令遵循差），让想完全复刻这道菜的人有点抓瞎。而且，这“秘制酱料”在处理“罐头食品”（脚本语音）时，味道反而不对了。 🔗 开源详情代码：论文提到“GitHub”链接，但未在正文中给出具体URL。未明确说明是否开源。模型权重：专用检测器：使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM：主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身：未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。数据集：使用的均为公开学术数据集（ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024），并提供了详细的分割和许可证信息。预训练权重：Phase-1证据库依赖Gemini生成，非可下载的预训练权重。在线Demo：未提及。引用的开源项目：faiss（用于k-NN）， lm-format-enforcer, xgrammar（用于尝试约束AF3输出）。 📌 核心摘要本文针对音频深度伪造检测模型在真实场景（in-the-wild）中泛化能力差的核心问题，提出了一种名为ICLAD的全新范式。该框架利用音频语言模型（ALM）的上下文学习能力，实现了无需训练的快速适应。其核心是创新的成对比较推理策略：在离线阶段，引导ALM为每个样本同时生成“真实”和“伪造”的证据，再结合真实标签进行证据调和，生成高质量、去幻觉的文本解释库；在线推理时，通过检索最相似的样本及其证据作为上下文，并结合一个动态路由机制，将分布内样本交给专用检测器处理，将分布外（真实场景）样本交给ALM进行推理。实验表明，ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器（宏F1最高提升近2倍），并能提供可解释的文本理由。然而，该方法在脚本语音数据集上性能有所下降，且其最佳性能依赖于专有模型Gemini。 ...

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

📄 ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics #音频深度伪造检测 #时频分析 #信号处理 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Heewon Oh 通讯作者：未明确提供其他作者：无机构信息：论文中未明确标注作者所属机构。 💡 毒舌点评亮点：把检测AI音乐变成了玩“大家来找茬”，专找神经编解码器留下的“数字指纹”，视角清奇且高效，参数量还只有对手的零头，堪称“四两拨千斤”。槽点：论文读起来像一份完美的“实验报告”，创新点明确、数据扎实，但总感觉少了点让人拍案叫绝的“灵光一闪”；另外，作者似乎是个“独行侠”，没有挂靠任何机构，显得有些神秘。 🔗 开源详情代码：论文中明确表示将开源（“we will release the code…”），但截至分析时，未提供具体链接。模型权重：论文中明确表示将开源（“…and the model weights”），未提及托管平台。数据集：论文中明确表示将开源ArtifactBench数据集（“…and the ArtifactBench dataset”），未提及获取方式。预训练权重：未提及使用其他预训练模型。在线 Demo：未提及。论文中引用的开源项目：摘要中未提及具体依赖的开源工具。 📌 核心摘要本文旨在解决AI生成音乐检测中泛化性差和模型参数效率低的问题。作者提出了一种名为ArtifactNet的新框架，其核心创新在于将问题重新定义为“法医物理学”，即直接提取和分析神经音频编解码器在生成音频中不可避免留下的物理痕迹（残留物）。该方法使用一个轻量级的Bounded-mask UNet从幅度谱图中提取编解码器残留，并通过HPSS（谐波-冲击-残渣分离）技术将其分解为7通道的法医特征，最后由一个紧凑的CNN进行分类。为公平评估，作者构建了包含22个生成器和6种真实来源的ArtifactBench基准。实验表明，ArtifactNet在未见测试集上达到了0.9829的F1分数，远超CLAM和SpecTTTra等现有方法，且参数量仅为4.0M，效率极高。此外，通过编解码器感知训练，模型对跨编解码器的概率漂移降低了83%，显著提升了鲁棒性。这项工作证明，直接提取底层物理残留是一种比表征学习更通用、更参数高效的AI音乐检测范式。 🏗️ 模型架构 ArtifactNet的整体流程是一个两阶段的“特征提取-分类”管道：输入：原始音频波形。预处理：将音频转换为幅度谱图（Magnitude Spectrogram）。第一阶段：残留提取：组件：ArtifactUNet（一个带约束的掩码UNet，3.6M参数）。功能：该模块被训练来从输入谱图中预测并分离出由神经音频编解码器（如MP3, AAC等编码-解码过程）引入的微小失真或“残留”。可以理解为它学习了一个“编解码器噪声”的指纹。输出：得到编解码器残留谱图。第二阶段：特征分解与分类：组件：HPSS算法 + 紧凑型CNN（0.4M参数）。流程： a. HPSS分解：将提取出的残留谱图通过谐波-冲击-残渣分离算法，分解成三个分量：谐波(H)、冲击(P)、残渣(S)。这三个分量从不同物理维度刻画了残留特性。 b. 特征构造：将H, P, S分量及其统计量（如均值、方差）组合成一个7通道的法医特征图。 c. 分类：将7通道特征图输入一个轻量级的卷积神经网络，最终输出一个二分类结果（AI生成 / 真实录制）。输出：音频为AI生成或真实的概率。关键设计理由： ...

Classical Machine Learning Baselines for Deepfake Audio Detection on the Fake-or-Real Dataset

📄 Classical Machine Learning Baselines for Deepfake Audio Detection on the Fake-or-Real Dataset #音频深度伪造检测 #音频分类 #基准测试 ✅ 评分：7.8/10 | arxiv 👥 作者与机构根据提供的论文摘要，作者信息如下：第一作者：Faheem Ahmad 通讯作者：摘要中未明确标注，需从全文获取。其他作者：Ajan Ahmed， Masudul Imtiaz 机构信息：提供的摘要中未包含任何作者的所属机构、实验室或公司信息。需要从论文全文（如作者 affiliations 部分）或联系邮箱进行推断。此处基于摘要无法判断。 💡 毒舌点评亮点是用一套经典、可解释的“老派”机器学习流程，系统性地为火热的深度伪造音频检测领域树立了一个扎实的基线，实验设计严谨得像教科书。槽点在于方法论上确实缺乏惊喜，基本是特征工程+传统分类器的“复古风”硬刚，对真实世界复杂多变的伪造技术（如零样本克隆）的泛化能力存疑，更像是一个漂亮的起点而非终点。 🔗 开源详情根据提供的论文摘要，未提及任何关于代码、模型权重、数据集或预训练权重的开源信息。论文中也未给出在线Demo地址。文中可能引用了用于特征提取的开源工具库（如librosa, parselmouth等），但具体列表需查看全文。 📌 核心摘要本文旨在解决深度伪造音频检测领域缺乏透明、可解释基线的问题。研究团队采用经典机器学习方法，在Fake-or-Real (FoR) 数据集上构建了一个完整的检测流程。他们从高保真（44.1 kHz）和电话音质（16 kHz）的2秒音频片段中，提取了韵律、音质和频谱等多类声学特征，并通过方差分析（ANOVA）和相关性热图等统计方法，识别出真实与伪造语音间的显著差异特征。随后，他们训练了包括逻辑回归、LDA、SVM、GMM在内的多种分类器，并使用准确率、ROC-AUC、等错误率（EER）和DET曲线进行全面评估。实验表明，基于RBF核的SVM在两种采样率下均达到约93%的测试准确率和约7%的EER，而线性模型准确率约为75%。特征分析揭示，音高变化和频谱丰富度（如频谱质心、带宽）是区分真假语音的关键线索。该研究为一个可解释的强基线，有助于未来检测器的设计与评估。 🏗️ 模型架构本文并未提出一个端到端的神经网络模型，而是构建了一个基于特征提取 + 经典分类器的机器学习流程。其整体架构可分为三个阶段：特征提取阶段：输入：原始音频波形（2秒片段，采样率44.1kHz或16kHz）。处理：从每段音频中提取三类声学特征：韵律特征：如基频（F0）的均值、标准差、动态范围等，捕捉语音的语调、节奏变化。音质特征：如谐波噪声比（HNR）、抖动（jitter）、闪烁（shimmer）等，反映声源（声带）的规律性和噪声水平。频谱特征：如频谱质心、频谱带宽、频谱平坦度、梅尔频率倒谱系数（MFCC）等，描述声音的频率成分和音色。输出：一个高维的特征向量，代表该音频片段的声学属性。特征分析与选择阶段：输入：所有样本的特征向量及其标签（真实/伪造）。处理：单变量统计分析：使用ANOVA检验每个特征在真实和伪造类别间的均值是否存在显著差异，筛选出判别性强的特征。多变量相关性分析：绘制特征间的相关性热图，识别冗余特征，为模型简化提供依据。输出：一组经过统计验证的、具有判别力的特征子集（或全部特征用于后续分类）。分类器训练与评估阶段：输入：处理后的特征向量及其对应的标签。处理：将数据集划分为训练集和测试集。分别训练多个经典分类模型：线性模型：逻辑回归、线性判别分析（LDA）、二次判别分析（QDA）。基于概率的模型：高斯朴素贝叶斯（Gaussian Naive Bayes）、高斯混合模型（GMM）。非线性模型：支持向量机（SVM，包括线性核和RBF核）。关键设计选择：选择这些模型是因为它们理论成熟、计算高效、且决策过程（如线性模型的系数、SVM的支持向量）相对可解释，符合建立“透明基线”的目标。使用RBF核SVM是为了捕捉特征间复杂的非线性关系。输出：每个训练好的分类器模型，能够对新的音频特征向量输出“真实”或“伪造”的预测标签及置信度。性能评估阶段： ...

StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #音频安全 #音频取证 #半监督学习 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Zhentao Liu（根据arXiv页面及GitHub仓库L1uZhentao推断，可能为苏黎世联邦理工学院（ETH Zurich）或相关机构，论文中未明确标注）通讯作者：Milos Cernak（根据arXiv页面推断，可能为苏黎世联邦理工学院（ETH Zurich）或相关机构，论文中未明确标注）其他作者：无机构说明：论文全文未提供明确的作者单位信息。根据arXiv提交者信息及开源仓库L1uZhentao推断，作者可能来自苏黎世联邦理工学院（ETH Zurich）的计算机科学系或相关实验室。通讯作者Milos Cernak在音频处理领域较为活跃。此处信息为推断，论文中未明确说明。 💡 毒舌点评亮点是把图像取证里的“半脆弱水印”思想成功移植到音频深度伪造检测，实现了“对良性处理免疫，对恶意篡改过敏”的智能封条，思路清晰且实验验证扎实。槽点在于模拟“恶意变换”仅用了音高偏移，与真实世界中复杂的TTS/VC攻击存在差距，且16比特的水印容量在实际部署中可能略显单薄，更像个概念验证而非工业级方案。 🔗 开源详情代码：论文中明确提供了GitHub链接：https://github.com/L1uZhentao/deepfake_benchmark。该仓库应包含StreamMark的实现及文中提到的深度伪造基准测试数据集。模型权重：论文中未明确提及是否公开预训练模型权重。通常此类开源项目会附带权重，但需查阅其GitHub仓库确认。数据集：论文开源了其构建的深度伪造基准测试集，包含多种恶意（TTS, VC, 编辑）和良性（风格转移）AI转换的音频对。在线Demo：论文中未提及。依赖开源工具：论文中未详细列出，但实现必然依赖如PyTorch、Torchaudio等常见深度学习和音频处理库。 📌 核心摘要本文针对生成式AI带来的音频深度伪造威胁，提出了一种名为StreamMark的主动防御框架。该框架是一种基于深度学习的半脆弱音频水印系统，其核心创新在于重新定义了水印的目标：不是追求对所有变换的绝对鲁棒，而是被设计为对保持语义的良性变换（如压缩、噪声）保持鲁棒，而对改变语义的恶意篡改（如语音转换、编辑）变得脆弱。方法上，它采用独特的编码器-失真层-解码器架构，将水印嵌入STFT的复数域（实部与虚部），并通过一个包含良性与恶意变换集的失真层进行对抗性训练，使模型学会区分变换的语义属性。实验表明，StreamMark在保持高不可感知性（PESQ 4.20）和对Opus编码等良性变换高鲁棒性（>99.89%）的同时，能有效对抗多种深度伪造攻击：面对TTS、语音转换和编辑攻击时，水印恢复准确率降至随机猜测水平（~50%），而面对良性AI风格转移时，准确率保持在98%以上。该研究为音频真实性认证提供了从被动检测到主动标记的范式转变。 🏗️ 模型架构 StreamMark采用端到端的编码器-失真层-解码器三阶段架构，其完整流程与核心组件如下：编码器层：输入：原始音频波形 + 16比特水印信息。流程： a. 复数STFT：将音频转换为短时傅里叶变换的复数谱，分离为实部和虚部。 b. 水印编码：16比特信息通过一个Watermark Encoder（512维全连接层+LeakyReLU）进行编码。 c. 双路特征提取与嵌入：实部和虚部分别通过独立的Real Encoder和Imaginary Encoder（均为6层卷积网络，基本单元为Skip-Gated Block）提取特征。编码后的水印信息被分别注入到实部和虚部的特征中，通过Real Embedder和Imaginary Embedder（结构同编码器）进行融合。 d. 逆STFT：将修改后的实部和虚部谱图通过逆短时傅里叶变换合成为含水印的音频波形。设计理由：复数域嵌入利用了人耳对相位失真相对不敏感的特性，相比仅修改幅度谱的方法（如Timbre Watermarking），能在保证不可感知性的前提下，实现更有效的水印嵌入。失真层： ...