语音伪造检测

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）通讯作者：论文中未明确标注通讯作者，依据学术惯例，可能为Siding Zeng或其他未列出作者。作者列表：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）。论文中仅列出此一位作者，但机构信息显示有两个隶属单位。 💡 毒舌点评论文的亮点在于其针对特定痛点（域偏移和边界模糊）设计了一套逻辑自洽、组件协同的解决方案，消融实验也扎实地证明了各模块的有效性。然而，其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜，论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上，属于扎实的工程优化而非理论或架构上的重大突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：实验使用了公开的PartialSpoof和ADD2023数据集，但论文本身未发布新数据集。 Demo：未提及在线演示。复现材料：提供了较为详细的训练配置（优化器、学习率、批量大小、损失权重、硬件），但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：引用了Wav2Vec2预训练模型（作为特征提取器）。总结：论文中未提及明确的开源计划。 📌 核心摘要问题：部分深度伪造音频（仅少数片段被篡改）的定位面临两大挑战：训练与测试数据间的域偏移，以及真实与伪造段之间细微的过渡边界。方法核心：提出DisAR双分支框架，将每个音频帧的特征显式解耦为“真实性特征”（捕捉伪造痕迹）和“干扰因素特征”（编码说话人、内容、环境等信息）。通过门控融合模块重建原始特征以避免信息丢失，并利用局部时间对比损失增强对篡改边界的敏感性。创新点：与已有方法相比，新在显式地将真实性信息与干扰因素分离，而非隐式地让模型自行学习；并通过融合重构和对比损失分别保障信息完整性和提升边界精度。主要结果：在PartialSpoof数据集上，DisAR取得了95.75%的F1分数（EER 3.51%）；在ADD2023 Track 2（跨域测试）上，F1分数达到76.74%（EER 19.05%），均优于报告的基线。关键消融实验证明，移除正交损失、融合模块或对比损失均会导致性能显著下降（例如，无正交损失时F1降至68.48%）。主要对比实验结果（表1）：方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果（表3）：PartialSpoof -> ADD2023设置下，DisAR的F1分数为57.81%，远高于基线SPF（37.15%）和RSDM（34.09%）。实际意义：提升了深度伪造音频检测在真实复杂场景（不同设备、环境、语言）下的可靠性和可解释性（通过解耦的特征）。 ...

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Tong Zhang (武汉大学网络空间安全学院) 通讯作者：Yanzhen Ren (武汉大学网络空间安全学院) 作者列表：Tong Zhang (武汉大学网络空间安全学院), Yihuan Huang (武汉大学网络空间安全学院), Yanzhen Ren (武汉大学网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评亮点：这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”，精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点，数据集构建的系统性和全面性值得称道。短板：它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”，在检测模型本身并无创新，且基线评估略显常规，距离真正解决“重放攻击”这一顽疾还有距离。 🔗 开源详情代码：提供。论文明确说明数据集、代码和自动化录制工具已开源，链接为：https://github.com/EchoFake/EchoFake/ 模型权重：未提及。论文仅评估了现有基线模型，未提出新模型。数据集：已公开。EchoFake数据集可通过上述GitHub仓库获取。 Demo：未提及。复现材料：提供了详尽的训练细节（学习率、batch size等）、超参数、数据集划分统计、预处理流程，复现基础良好。论文中引用的开源项目：列出了所使用的多种开源TTS模型，如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等（详见参考文献和数据集构建部分）。论文中未提及开源计划：所��必要的复现材料已在论文发表时一并开源。 📌 核心摘要问题：现有的音频深度伪造检测模型在实验室环境下表现良好，但在面对真实世界中常见的低成本“物理重放攻击”（即将合成语音通过扬声器播放并重新录制）时，性能会急剧下降，严重威胁其实际部署的可靠性。方法：为了解决这一问题，作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音（TTS）生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型：真实语音、重放真实语音、伪造语音、重放伪造语音。创新：与已有数据集（如ASVspoof）主要关注单一攻击方式（仅合成或仅重放真实语音）不同，EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时，它采用了多种最新开源的零样本TTS模型，并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。主要实验结果：使用EchoFake训练的三个基线模型（RawNet2， AASIST， Wav2Vec2）在跨数据集评估中表现出更好的泛化能力，平均EER显著低于在传统数据集上训练的模型（见表3）。模型在EchoFake封闭集评估中表现优异（如AASIST的二分类EER为0.46%），但在开放集评估中性能大幅下降（如AASIST的二分类EER升至14.88%），重放样本是主要错误来源（见表4）。消融实验证明，在训练数据中包含重放样本，能显著提升模型在重放攻击场景下的鲁棒性，而在传统基准上性能损失很小。实际意义：EchoFake提供了一个更接近真实威胁模型的评估基准，有助于推动检测算法从实验室走向实际应用，提升对复杂欺诈攻击的防御能力。局限性：尽管模型在EchoFake上得到提升，但在面对未见过的重放条件（开放集）时，性能仍有明显下降，表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构未说明。本文是一篇数据集论文，其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型（RawNet2, AASIST, Wav2Vec2）的详细架构并非本文创新点，故在此不展开描述。 ...

Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

📄 Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform #语音伪造检测 #自监督学习 #数据增强 #鲁棒性 #基准测试 ✅ 7.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #数据增强 #鲁棒性学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuankun Xie（Communication University of China, Beijing, China）通讯作者：Ruibo Fu（Institute of Automation, Chinese Academy of Sciences, Beijing, China），Long Ye（Communication University of China, Beijing, China）作者列表：Yuankun Xie（中国传媒大学），Ruibo Fu（中国科学院自动化研究所），Xiaopeng Wang（北京理工大学），Zhiyong Wang（中国科学院自动化研究所），Ya Li（北京邮电大学），Yingming Gao（北京邮电大学），Zhengqi Wen（北京国家信息科学与技术研究中心，清华大学），Haonan Cheng（中国传媒大学），Long Ye（中国传媒大学） 💡 毒舌点评这篇论文最大的亮点是做了一件“脏活累活”——构建了一个贴近真实世界、多平台、多账户的中文深度伪造语音数据集（FSW），并用它系统性地戳穿了现有检测模型在“温室”数据集上虚假的高性能泡沫，为社区提供了更严格的评估标准。短板在于，它本质上是“评估”和“诊断”工作，虽然实用，但并未提出一种具有突破性的新型检测模型架构，更像是为后续工作铺设了一条更真实的跑道。 ...

Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection

📄 Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection #语音伪造检测 #自监督学习 #模型评估 #Conformer 🔥 8.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #模型评估 #Conformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Phuong Tuan Dat (河内科技大学信息与通信技术学院) 通讯作者：Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 作者列表：Phuong Tuan Dat (河内科技大学信息与通信技术学院)， Duc-Tuan Truong (南洋理工大学计算与数据科学学院)， Long-Vu Hoang (河内科技大学信息与通信技术学院)， Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 💡 毒舌点评亮点：论文将细粒度视觉分类的“投票选择”思想巧妙移植到语音领域，通过显式建模注意力头的“专长”并选择性聚合关键帧，有效解决了标准MHSA可能忽略局部伪造伪影的问题，方法新颖且有效。短板：高斯核增强的卷积核是固定的（[1, 2, 3, 4, 3, 2, 1]），缺乏理论依据或可学习性分析；且所选关键帧数量v需人工调优，在不同音频长度或任务下可能不具备普适性。 ...

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

📄 Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing #说话人验证 #语音伪造检测 #自监督学习 #结构化剪枝 #低资源 🔥 8.0/10 | 前25% | #说话人验证 | #自监督学习 | #语音伪造检测 #结构化剪枝学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junyi Peng (Brno University of Technology, Speech@FIT) 通讯作者：未说明作者列表：Junyi Peng¹, Lin Zhang², Jiangyu Han¹, Oldřich Plchot¹, Johan Rohdin¹, Themos Stafylakis³,⁴,⁵, Shuai Wang⁶, Jan Černocký¹ (1. Speech@FIT, Brno University of Technology, Czechia; 2. Johns Hopkins University, USA; 3. Athens University of Economics and Business; 4. Omilia; 5. Archimedes/Athena R.C., Greece; 6. Nanjing University, China) 💡 毒舌点评亮点在于优雅地将模型剪枝与任务微调合并为单阶段训练，省去了复杂的多步流水线，且在多个基准上效果拔群，甚至能充当正则化提升泛化能力；短板在于对“为什么学出的剪枝模式是这样的”这一现象的理论解释稍显薄弱，更多是现象描述而非机理剖析。 ...

ICASSP 2026 - 语音伪造检测论文列表

ICASSP 2026 - 语音伪造检测共 8 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators

📄 Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators #语音伪造检测 #音位分析 #语音合成 #模型比较 ✅ 7.0/10 | 前25% | #语音伪造检测 | #音位分析 | #语音合成 #模型比较学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Boo Fullwood（佐治亚理工学院 ECE & School of Cybersecurity and Privacy）通讯作者：未说明作者列表：Boo Fullwood（佐治亚理工学院 ECE & School of Cybersecurity and Privacy）、Fabian Monrose（佐治亚理工学院 ECE & School of Cybersecurity and Privacy） 💡 毒舌点评本文如同一份详尽的“现代语音合成器体检报告”，首次对如此多种类的生成器进行了大规模“病理学”扫描，发现了鼻音和阻塞音这个普遍存在的“病灶”，并精准定位问题主要出在“文本到频谱”的环节，为后续“治疗”（改进生成器或设计更精准的检测器）提供了清晰的诊断书。其短板在于只开出了“诊断书”，却没有附上“药方”或“手术指南”——即基于这些发现提出具体的、新的检测算法或生成器改进方案，且复现门槛较高。 ...

Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling

📄 Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling #语音伪造检测 #多任务学习 #Transformer #音频安全 ✅ 7.5/10 | 前25% | #语音伪造检测 | #多任务学习 | #Transformer #音频安全学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Viola Negroni (Politecnico di Milano, 意大利米兰理工大学电子、信息与生物工程系) 通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Viola Negroni (Politecnico di Milano), Luca Cuccovillo† (Fraunhofer IDMT), Paolo Bestagini (Politecnico di Milano), Patrick Aichroth† (Fraunhofer IDMT), Stefano Tubaro (Politecnico di Milano)。和 † 对应其所属机构。 💡 毒舌点评这篇论文的亮点在于其“设计即解释”的思路，通过引入共振峰预测和发声区域检测作为辅助任务，让模型决策过程更具物理意义，而非纯粹的黑箱分类。然而，其短板也十分明显：与自身前代模型的对比固然重要，但若想在领域内立足，缺少与 AASIST、RawNet2 等经典基线的直接较量，说服力难免打折扣；更致命的是，全文只字未提开源计划，让“可复现性”在实践中沦为一句空话。 ...

Speech Quality-Based Localization of Low-Quality Speech and Text-to-Speech Synthesis Artefacts

📄 Speech Quality-Based Localization of Low-Quality Speech and Text-to-Speech Synthesis Artefacts #语音质量评估 #语音伪造检测 #自监督学习 #语音合成 #模型评估 ✅ 7.0/10 | 前25% | #语音质量评估 | #自监督学习 | #语音伪造检测 #语音合成学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Michael Kuhlmann（Paderborn University, Germany）通讯作者：未说明作者列表：Michael Kuhlmann（Paderborn University, Germany）、Alexander Werning（Paderborn University, Germany）、Thilo von Neumann（Paderborn University, Germany）、Reinhold Haeb-Umbach（Paderborn University, Germany） 💡 毒舌点评这篇论文巧妙地将音频编解码领域的“一致性损失”借鉴到语音质量评估中，有效解决了帧级质量预测因缺乏直接监督而导致的“位置模糊”问题，在局部伪装检测任务上实现了检测精度的翻倍提升。然而，其应用于TTS伪影分析的部分显得有些“虎头蛇尾”：虽然通过听测试图证明检测的“合理性”，但仅对200个片段进行分类统计，且未与现有的语音合成错误检测基线进行定量对比，使得这部分结论的说服力大打折扣。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/fgnt/local_sqa。模型权重：论文中未提及是否提供预训练模型权重。数据集：所用训练数据集（BVCC, NISQA）和评测数据集（PartialSpoof, LibriTTS）均为公开数据集，但论文中未特别说明获取方式。TTS生成样本已提供链接：https://go.upb.de/icassp26-sqa-detect。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的模型配置表（表1）、关键超参数（学习率、训练轮数、切片长度等）和损失函数公式，但未提供训练日志、完整配置文件或硬件信息。论文中引用的开源项目：明确提到了 SHEET [9] 作为实验设置参考，以及 BAM [22]、sed_scores_eval、replikant [26] 等工具。核心依赖的预训练模型为 WavLM [20]。 📌 核心摘要问题：现有的自动语音质量评估模型通常只给出句子级别的质量分数，无法解释低分的原因，也无法定位具体的劣质片段。尝试预测帧级分数的模型，其预测值往往因缺乏局部监督而显得不稳定和不一致。方法核心：提出通过一致性约束来正则化帧级分数的训练。具体而言，在训练SQA模型时，随机截取语音的某个片段，要求该片段独立编码后产生的嵌入向量和帧级分数，与该片段在原始完整语音上下文中编码得到的结果保持一致。创新点：将音频生成任务中确保离散标记一致性的思想，迁移并应用于判别式的语音质量评估任务，旨在减少帧级分数对长时上下文的依赖，使其更准确地反映局部质量。该方法与编码器/解码器的具体架构（如BLSTM）兼容。实验结果：一致性提升：在BVCC测试集上，引入一致性约束显著降低了帧分数的“波动率”（Volatility），例如模型1（无约束）波动率为0.510，而模型7（完整约束）降至0.055，同时保持了句子级质量预测的相关性（SRCC>0.87）。检测性能：在部分伪造（PartialSpoof）数据集上，在严格评估标准（ρ2）下，检测精度（Precision）从基线模型1的20.9%提升至模型7的55.7%（绝对提升34.8个百分点），F1分数从0.284提升至0.386。其性能接近但略低于使用伪造标签训练的SOTA模型BAM（F1: 0.569）。 TTS伪影分析：对StyleTTS2和F5-TTS生成语音的听测表明，由该模型检测出的低质量片段，被专家听众判定为“非人类自然语音”的比例（StyleTTS2: 79%， F5-TTS: 75%）远高于随机控制样本（StyleTTS2: 34%， F5-TTS: 28%），证明了检测的有效性。实际意义：为自动化的语音合成错误定位提供了有效工具，可以帮助开发者快速定位系统生成的劣质片段，从而针对性改进。也增强了SQA模型的可解释性。主要局限性：1）模型对特定类型的伪影（如笑声、清嗓）敏感，可能在不同应用领域产生假阳性。2）论文在TTS伪影分析部分未提供与现有语音合成错误检测方法的定量对比。3）听测规模有限，且仅针对两个特定的TTS系统和有声书场景。 🏗️ 模型架构论文描述的是一个用于训练帧级语音质量预测器的框架，其核心是基于SSL编码器的SQA模型架构以及为提升帧级分数一致性而设计的训练目标。 ...

Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection

📄 Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection #语音伪造检测 #注意力机制 #状态空间模型 #端到端 #预训练 ✅ 7.0/10 | 前25% | #语音伪造检测 | #注意力机制 | #状态空间模型 #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Minjiao Yang（北京邮电大学网络空间安全学院）通讯作者：Kangfeng Zheng（北京邮电大学网络空间安全学院，姓名后带星号*）作者列表：Minjiao Yang（北京邮电大学网络空间安全学院）、Kangfeng Zheng（北京邮电大学网络空间安全学院）、Jujie Wang（北京邮电大学网络空间安全学院）、Xiaoyu Zhang（北京邮电大学网络空间安全学院）、Yaru Zhao（国际关系学院） 💡 毒舌点评这篇论文在Mamba日益火热的语音防伪赛道上，为BiMamba-ST模型量身打造了一个结构精巧、消融实验扎实的融合模块，实验结果在多个公开基准上取得了稳定的提升，尤其是端到端方案在In-the-Wild数据集上的相对EER下降31%，显示了不错的泛化能力。然而，核心创新主要集中在对已有骨干网络输出端的信息整合方式，而非提出全新的检测范式或发现更本质的伪造痕迹，且缺乏代码和模型开源，限制了其在社区内被快速验证和应用的可能性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开的ASVspoof 2019/2021系列数据集和In-the-Wild数据集，但论文本身未公开额外数据集。 Demo：未提供在线演示。复现材料：论文给出了较为详细的训练细节、超参数设置（学习率、批大小、优化器、训练轮数）、损失函数权重、数据增强算法选择以及硬件信息（单卡A800）。部分超参数（如Sinc卷积的具体参数、SE-Res2Net的内部结构）引用了先前工作[17, 19]，但未在附录中完整复述。论文中引用的开源项目：论文引用了多个开源项目或其官方实现作为基线进行对比，如RawBMamba [19], BiCrossMamba-ST [14], AASIST [6], SE-Rawformer [9], XLSR-Mamba [10]等。总体开源情况：论文中未提及开源计划（代码、模型）。 📌 核心摘要这篇论文针对语音伪造检测任务中，需要同时建模时频域、短时与长时依赖关系的挑战，提出了一种名为“三重注意力融合”（Tri-Attention Fusion）的模块。该方法以BiMamba-ST（一种双向Mamba的时频双分支骨干网络）的输出为基础，通过三个子模块逐步整合信息：局部域注意力（LDA）在通道维度自适应融合前向和反向扫描得到的特征；跨域注意力（CDA）通过通道Gram矩阵在共享通道空间内实现时域与频域特征的交互；全局表示池化（GRP）将序列特征聚合为固定维度的嵌入。该模块被集成到端到端和预训练（XLSR）两种前端中进行评估。实验结果在ASVspoof 2019 LA、2021 LA、2021 DF以及In-the-Wild四个数据集上，均取得了与现有最佳方法持平或超越的性能。例如，在端到端前端下，其在In-the-Wild数据集上的EER为33.48%，相比基线RawBMamba（48.53%）有31%的相对下降。该工作的核心意义在于证明了一个设计良好的渐进式融合模块能显著提升Mamba类模型在复杂伪造检测任务中的特征建模能力。主要局限性在于其创新是模块级的，且未开源代码与模型，复现依赖论文中的细节描述。 ...