A Parameter-Efficient Multi-Scale Convolutional Adapter for Synthetic Speech Detection

📄 A Parameter-Efficient Multi-Scale Convolutional Adapter for Synthetic Speech Detection #音频深度伪造检测 #自监督学习 #语音伪造检测 #迁移学习 #参数高效微调 ✅ 7.0/10 | #音频深度伪造检测 #自监督学习 👥 作者与机构 第一作者:Yassine El Kheir(DFKI, Germany;Gretchen AI, Germany) 通讯作者:未说明 作者列表:Yassine El Kheir(DFKI, Germany;Gretchen AI, Germany)、Fabian Ritter-Guttierez(Nanyang Technological University, Singapore)、Arnab Das(DFKI, Germany;Gretchen AI, Germany)、Tim Polzehl(DFKI, Germany;Gretchen AI, Germany)、Sebastian Moller(DFKI, Germany;Technical University of Berlin, Germany) 💡 毒舌点评 亮点在于设计了一个巧妙的参数高效适配器,用仅1%的参数就显著超越了全微调方法,在效率与性能的权衡上取得了亮眼成绩。但短板也很明显:论文没有提供代码或模型链接,让复现成了“开卷考试但没带书”;另外,对多尺度特征融合的物理意义(如具体哪些特征对应短时/长时伪影)缺乏更深入的可视化分析或解释。 📌 核心摘要 这篇论文针对现有基于自监督学习(SSL)的语音合成检测模型在全微调时计算成本高、而通用参数高效微调(PEFT)方法缺乏捕捉音频多尺度时间伪影的特定归纳偏置这一问题,提出了一种新的多尺度卷积适配器(MultiConvAdapter)。该方法的核心是在SSL骨干网络(如XLSR)的Transformer层中的多头自注意力(MHSA)模块后,插入一个并行的、使用不同大小卷积核的深度卷积模块,使模型能同时学习短时伪影和长时失真。与已有方法(如LoRA、Houlsby适配器)相比,新方法显式地引入了针对音频时间结构的先验知识。主要实验结果表明,在五个公开数据集(ASVspoof LA19、DF21、ITW、MLAAD、ASV5)上,MultiConvAdapter仅使用3.17M可训练参数(仅为317M骨干模型的1%),其平均EER(等错误率)达到5.91%,相比全微调方法(7.07%)相对降低了16.41%,并优于其他PEFT方法(如LoRA为8.43%)。该方法的意义在于为部署高效、鲁棒的合成语音检测系统提供了一种可行的参数高效解决方案。主要局限性在于论文未公开代码和模型,且分析局限于标准数据集,未探讨在极端对抗环境或更复杂编解码条件下的泛化能力。 🏗️ 模型架构 论文提出的MultiConvAdapter架构旨在增强预训练SSL模型(如XLSR、HuBERT)对合成语音检测任务的适应性,其整体流程如下: 输入与骨干网络:输入音频波形被截断或填充至4秒(64,600采样点)。使用预训练的SSL模型(如XLSR)作为特征提取骨干,其包含卷积编码器和多层Transformer编码器。SSL模型输出序列特征 Hl ∈ R^{B×T×D}(B:批次大小,T:序列长度,D:嵌入维度)。 适配器放置与流程:MultiConvAdapter被插入到每个Transformer层的MHSA子层之后。首先,将MHSA的输出Hl通过一个投影下采样层(Proj Down,全连接层)映射到低维空间 H′l ∈ R^{B×T×D′},其中D′(论文中为64)远小于D,以降低计算复杂度。 并行多尺度卷积模块:低维特征H′l在通道维度上被分割为N个头(论文中N=4)。每个头由一个独立的1D深度卷积层处理,每个卷积层使用不同的核大小(如{3,7,15,23})。深度卷积确保每个通道的特征被独立处理,使模型能并行提取不同时间分辨率的特征:小核(如3)捕捉局部高频伪影,大核(如23)建模更长期的失真。 特征融合与输出:所有卷积头的输出在通道维度上拼接,然后通过一个融合模块(Mixup Conv)进行交互。该模块是一个带有残差连接的1D卷积(核大小为3),其作用是让不同尺度的特征能够相互融合,学习跨尺度的组合模式。最后,通过一个投影上采样层(Proj Up)将特征维度恢复回原始D。 整体数据流:输入音频 -> SSL骨干特征提取 -> 在每个Transformer层的MHSA后并行插入MultiConvAdapter -> 最终特征送入AASIST分类器进行二分类判断。 ...

2026-04-29

Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection

📄 Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection #语音伪造检测 #数据增强 #鲁棒性 #梯度优化 ✅ 7.0/10 | 前25% | #语音伪造检测 | #数据增强 | #鲁棒性 #梯度优化 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Duc-Tuan Truong(南洋理工大学,新加坡) 通讯作者:Ruijie Tao(新加坡国立大学)、Kong Aik Lee(香港理工大学)(论文中标注为共同通讯作者) 作者列表:Duc-Tuan Truong(南洋理工大学)、Tianchi Liu(新加坡国立大学)、Junjie Li(香港理工大学)、Ruijie Tao(新加坡国立大学)、Kong Aik Lee(香港理工大学)、Eng Siong Chng(南洋理工大学) 💡 毒舌点评 亮点:论文首次敏锐地指出了“数据增强双路径训练中同一语句的原始与增强版本梯度冲突”这一被忽视却普遍存在的现象,并设计了优雅的DPDA框架加以解决,理论分析(损失曲面可视化)与实验证据结合得很有说服力。短板:核心的“梯度对齐”技术(PCGrad等)是直接“借用”自多任务学习领域,本文的创新更多在于问题发现和技术迁移应用,而非算法本身的原创性突破。 📌 核心摘要 本文针对语音深度伪造检测(SDD)模型在使用数据增强(DA)训练时,原始输入与增强输入反向传播梯度方向不一致(冲突)导致优化矛盾、影响模型泛化的问题,提出了一种双路径数据增强训练框架与梯度对齐方法。该框架将每个训练语句同时通过原始路径和增强路径输入共享模型,计算损失后,在梯度更新前使用PCGrad等梯度对齐技术处理冲突。主要创新在于首次在SDD领域系统研究并量化了DA训练中的梯度冲突(约25%的迭代存在冲突),并通过损失曲面可视化证明冲突源于不同的损失景观。实验表明,该方法在XLSR-AASIST、XLSR-Conformer-TCM、XLSR-Mamba三种架构上,配合RawBoost等多种增强方法,在ASVspoof2021-DF、In-the-Wild、FoR等挑战性测试集上均能稳定提升性能。例如,在XLSR-Conformer-TCM上,使用PCGrad在ITW数据集上将EER从7.97%降至6.48%,相对降低约18.69%。该方法能加速收敛(提前至第4个epoch达到最低验证损失)。其实际意义在于提供了一种即插即用、与模型和增强技术无关的训练优化策略,以提升SDD的鲁棒性。局限性在于主要从经验层面分析,缺乏对梯度冲突产生理论条件的深层探究,且梯度对齐技术本身非本文原创。 🏗️ 模型架构 本文的核心并非提出一个新的SDD检测模型,而是提出一个训练框架(DPDA),该框架可应用于各种现有的SDD模型架构。 架构流程说明: 双路径输入:对于一个训练语句,同时生成其原始波形x和增强波形˜x(如通过RawBoost处理)。 共享模型:两个输入分别或以mini-batch形式送入同一个待训练的SDD模型f(θ)(如XLSR-Conformer-TCM),计算各自的损失L(x)和L(˜x)。 梯度计算与对齐:分别计算损失对模型参数θ的梯度gx和g˜x。在梯度对齐模块中,根据预设准则(如PCGrad、GradVac或CAGrad)判断两个梯度是否存在冲突,并进行调整,得到对齐后的梯度g'x和g'˜x。 参数更新:将对齐后的梯度聚合(如平均),用于更新模型参数θ。 关键组件:梯度对齐方法是框架的核心。论文对比了三种: PCGrad:当两个梯度内积为负(方向冲突)时,将每个梯度投影到另一个梯度的法平面上,移除冲突分量。 GradVac:不仅消除冲突,还主动通过线性组合将梯度间的余弦相似度提升至一个自适应目标值。 CAGrad:求解一个凸优化问题,寻找一个靠近原始聚合梯度g0,同时能同时改善两个损失(即与gx和g˜x的内积均为正)的更新方向g。 该框架是模型无关的,旨在解决因DA引入的优化不稳定性。 💡 核心创新点 问题发现与量化:首次在语音深度伪造检测领域,系统性地发现并量化了“原始输入与增强输入梯度冲突”这一训练中的普遍现象(约25%的迭代发生冲突),并通过损失曲面可视化揭示了冲突的几何根源。 提出DPDA训练框架:设计了一个简洁有效的双路径训练框架,将同一语句的原始和增强版本并行处理,为研究和解决梯度冲突提供了标准化的设置。 技术迁移与验证:将多任务学习中成熟的梯度对齐技术(PCGrad等)成功迁移到SDD的数据增强训练场景,���验证了其有效性和普适性(跨模型、跨增强方法)。 性能与效率双重收益:应用梯度对齐后,不仅模型在多个挑战性数据集上的检测性能(EER)获得稳定提升,训练的收敛速度也显著加快(例如,XLSR-Conformer-TCM的收敛epoch从14提前至4)。 🔬 细节详述 训练数据:在ASVspoof2019 Logical Access (LA)数据集上训练和验证。该数据集包含真实(bona fide)和多种TTS/VC系统生成的伪造语音。 数据增强:主要使用RawBoost(配置4)对原始波形进行信号级失真。也验证了与MUSAN噪声、RIR(房间脉冲响应)增强方法的组合。 损失函数:论文未明确说明使用的具体损失函数,但根据任务性质(二分类)和对比方法(XLSR-AASIST等),推测使用标准的二元交叉熵损失(BCE Loss)。L(x)和L(˜x)均为该损失。 训练策略: 优化器:论文未明确说明,可能沿用各基线模型的设置。 学习率、Warmup:论文未明确说明。 Batch Size:由于双路径需存储两份梯度,为适应GPU内存,将单路径训练的batch size从20减半至10(包含5个原始样本和5个增强样本)。 训练轮数:采用早停策略,当验证损失连续7个epoch未改善时停止训练。 模型架构:验证了三种不同架构:XLSR-AASIST(自监督特征+注意力统计池化+时序卷积网络)、XLSR-Conformer-TCM(自监督特征+Conformer+时序通道建模)、XLSR-Mamba(自监督特征+双向状态空间模型)。 关键超参数:梯度对齐方法PCGrad无额外超参数。CAGrad中的c在论文中未指定具体值。 训练硬件:未说明。 推理细节:未说明。推理时仅使用原始语音输入。 正则化/稳定训练技巧:核心稳定技巧即为梯度对齐。 📊 实验结果 主要基准与结果:在三个挑战性测试集上评估:ASVspoof2021-DF(模拟真实条件)、In-the-Wild (ITW)(真实媒体音频)、Fake-or-Real (FoR)(播客音频)。主要指标为等错误率(EER)。 ...

2026-04-29

Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

📄 Audio-Visual Deepfake Generation and Detection: An Exploratory Survey #音频深度伪造检测 #语音伪造检测 #对比学习 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn) 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所) 💡 毒舌点评 这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。 📌 核心摘要 这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。 与已有综述相比,本文新在首次专注于“音视频”这一具体伪造类型,并提供了针对该类型检测器的系统性可靠性评估。主要实验结果显示,大多数检测器泛化能力不足(表1),例如LIPINC在LAV-DF数据集上AUC仅为50.55%;同时抗干扰能力较弱(图3),高斯噪声和时间拉伸对多数检测器性能有显著破坏。本文的实际意义在于明确了当前检测技术的瓶颈,并为未来研究指明了方向,如发展基于内容相关性的检测策略、构建更具挑战性的测试基准等。主要局限性在于其评估覆盖的检测器和数据集有限,且未提供可直接复现的代码或模型。 主要实验结果表格: 表1. 泛化性实验结果 (AUC, %) 检测器 FakeAVCeleb IDForge AVLips LAV-DF Yu et al. [17] 99.12* 83.46 88.07 65.13 LIPINC [30] 71.27 78.82 70.54 50.55 LipFD [14] 72.42 69.97 84.98* 41.95 VFD [31] 76.43* 43.34 65.10 55.94 SpeechForensics [32] 99.29 95.67 99.46 85.37 Feng et al. [33] 80.86 75.49 74.39 57.53 AVH-Align [34] 95.29* 14.72 86.61 88.70 注:星号()表示该结果基于监督学习设置(测试集与训练集有重叠),不反映泛化能力。* ...

2026-04-29

Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset

📄 Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset #语音伪造检测 #数据集 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音伪造检测 | #数据集 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Maria Risques(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 通讯作者:Edward J. Delp(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 作者列表:Maria Risques(普渡大学 VIPER 实验室)、Kratika Bhagtani(普渡大学 VIPER 实验室)、Amit Kumar Singh Yadav(普渡大学 VIPER 实验室)、Edward J. Delp(普渡大学 VIPER 实验室) 💡 毒舌点评 亮点:论文精准地切入了一个关键且被忽视的研究空白——西班牙语语音伪造检测,通过构建首个大规模、多口音的合成/真实语音数据集 HISPASpoof,为后续研究提供了不可或缺的基石,填补了领域的重大缺口。短板:论文的核心贡献是“数据集+评估”,并未提出新的检测或归因模型或算法,其学术创新主要体现在数据工程和实验验证层面,而非方法论的突破。 📌 核心摘要 问题:当前先进的语音合成(TTS)和语音克隆技术可生成高度逼真的合成语音,带来严重的欺诈和滥用风险。尽管针对英语和中文已有成熟的检测器和数据集,但作为全球6亿人使用的语言,西班牙语在语音取证领域却严重缺乏研究和评估基准。 方法核心:本文提出了 HISPASpoof 数据集,这是首个大规模西班牙语合成语音检测与归因数据集。数据集包含来自6个公开语料库(涵盖6种西班牙语口音)的真实语音,以及由6种前沿的零样本TTS系统生成的合成语音。论文利用该数据集,系统评估了5种代表性的检测方法在跨语言(英语→西班牙语)和特定语言(西班牙语)训练下的性能。 新意:这是首个专门针对西班牙语的、大规模、多口音、多合成器的语音伪造检测与归因数据集。与以往多语言数据集(如ODSS)相比,HISPASpoof在西班牙语音频数量(超过50万条)、口音多样性(6种)和合成系统多样性(6种)上均有显著提升。 主要实验结果: 检测性能:实验证明,在英语数据集(ASVspoof2019)上训练的检测器直接应用于西班牙语时性能急剧下降(EER普遍高于30%,最差达49.57%)。在HISPASpoof上训练后,检测性能大幅提升。具体关键结果见下表: 训练集 测试集 LFCC+GMM EER(%) MFCC-ResNet EER(%) Spec-ResNet EER(%) PaSST EER(%) Wav2Vec2-AASIST EER(%) ASVspoof2019 (英语) UHIS (西班牙语) 42.71 41.72 43.23 32.14 19.92 HISPASpoof (西班牙语) UHIS (西班牙语) 1.57 5.17 0.72 4.10 10.27 HISPASpoof (西班牙语) UODSSSpa (跨数据集) 0.85 48.72 17.09 17.95 43.59 归因性能:在归因(识别合成器)任务中,闭集设置下各方法均接近完美(PaSST准确率100%)。开放集(需识别未见过的合成器)更具挑战性,PaSST表现最佳(准确率78.32%),Spec-ResNet次之(69.73%)。 实际意义:HISPASpoof 为西班牙语语音安全研究提供了关键的评测基准,揭示了现有英语检测器在西班牙语上的失效,并验证了使用领域内数据训练的有效性,推动了语音取证研究的包容性发展。 主要局限性:论文的核心是提出数据集并进行基线评估,没有提出新的检测或归因算法。开源计划中未提及模型权重的公开。 🏗️ 模型架构 本文未提出新的检测或归因模型架构。其核心工作是构建数据集并评估五种已有的代表性方法,这些方法可分为三类: ...

2026-04-29

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院) 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。 💡 毒舌点评 论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。 📌 核心摘要 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。 主要对比实验结果(表1): 方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。 ...

2026-04-29

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Tong Zhang (武汉大学 网络空间安全学院) 通讯作者:Yanzhen Ren (武汉大学 网络空间安全学院) 作者列表:Tong Zhang (武汉大学 网络空间安全学院), Yihuan Huang (武汉大学 网络空间安全学院), Yanzhen Ren (武汉大学 网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评 亮点:这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”,精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点,数据集构建的系统性和全面性值得称道。短板:它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”,在检测模型本身并无创新,且基线评估略显常规,距离真正解决“重放攻击”这一顽疾还有距离。 📌 核心摘要 问题:现有的音频深度伪造检测模型在实验室环境下表现良好,但在面对真实世界中常见的低成本“物理重放攻击”(即将合成语音通过扬声器播放并重新录制)时,性能会急剧下降,严重威胁其实际部署的可靠性。 方法:为了解决这一问题,作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音(TTS)生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型:真实语音、重放真实语音、伪造语音、重放伪造语音。 创新:与已有数据集(如ASVspoof)主要关注单一攻击方式(仅合成或仅重放真实语音)不同,EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时,它采用了多种最新开源的零样本TTS模型,并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。 主要实验结果: 使用EchoFake训练的三个基线模型(RawNet2, AASIST, Wav2Vec2)在跨数据集评估中表现出更好的泛化能力,平均EER显著低于在传统数据集上训练的模型(见表3)。 模型在EchoFake封闭集评估中表现优异(如AASIST的二分类EER为0.46%),但在开放集评估中性能大幅下降(如AASIST的二分类EER升至14.88%),重放样本是主要错误来源(见表4)。 消融实验证明,在训练数据中包含重放样本,能显著提升模型在重放攻击场景下的鲁棒性,而在传统基准上性能损失很小。 实际意义:EchoFake提供了一个更接近真实威胁模型的评估基准,有助于推动检测算法从实验室走向实际应用,提升对复杂欺诈攻击的防御能力。 局限性:尽管模型在EchoFake上得到提升,但在面对未见过的重放条件(开放集)时,性能仍有明显下降,表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构 未说明。本文是一篇数据集论文,其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型(RawNet2, AASIST, Wav2Vec2)的详细架构并非本文创新点,故在此不展开描述。 ...

2026-04-29

Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

📄 Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform #语音伪造检测 #自监督学习 #数据增强 #鲁棒性 #基准测试 ✅ 7.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #数据增强 #鲁棒性 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuankun Xie(Communication University of China, Beijing, China) 通讯作者:Ruibo Fu(Institute of Automation, Chinese Academy of Sciences, Beijing, China),Long Ye(Communication University of China, Beijing, China) 作者列表:Yuankun Xie(中国传媒大学),Ruibo Fu(中国科学院自动化研究所),Xiaopeng Wang(北京理工大学),Zhiyong Wang(中国科学院自动化研究所),Ya Li(北京邮电大学),Yingming Gao(北京邮电大学),Zhengqi Wen(北京国家信息科学与技术研究中心,清华大学),Haonan Cheng(中国传媒大学),Long Ye(中国传媒大学) 💡 毒舌点评 这篇论文最大的亮点是做了一件“脏活累活”——构建了一个贴近真实世界、多平台、多账户的中文深度伪造语音数据集(FSW),并用它系统性地戳穿了现有检测模型在“温室”数据集上虚假的高性能泡沫,为社区提供了更严格的评估标准。短板在于,它本质上是“评估”和“诊断”工作,虽然实用,但并未提出一种具有突破性的新型检测模型架构,更像是为后续工作铺设了一条更真实的跑道。 ...

2026-04-29

Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection

📄 Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection #语音伪造检测 #自监督学习 #模型评估 #Conformer 🔥 8.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #模型评估 #Conformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Phuong Tuan Dat (河内科技大学信息与通信技术学院) 通讯作者:Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 作者列表:Phuong Tuan Dat (河内科技大学信息与通信技术学院), Duc-Tuan Truong (南洋理工大学计算与数据科学学院), Long-Vu Hoang (河内科技大学信息与通信技术学院), Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 💡 毒舌点评 亮点:论文将细粒度视觉分类的“投票选择”思想巧妙移植到语音领域,通过显式建模注意力头的“专长”并选择性聚合关键帧,有效解决了标准MHSA可能忽略局部伪造伪影的问题,方法新颖且有效。短板:高斯核增强的卷积核是固定的([1, 2, 3, 4, 3, 2, 1]),缺乏理论依据或可学习性分析;且所选关键帧数量v需人工调优,在不同音频长度或任务下可能不具备普适性。 ...

2026-04-29

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

📄 Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing #说话人验证 #语音伪造检测 #自监督学习 #结构化剪枝 #低资源 🔥 8.0/10 | 前25% | #说话人验证 | #自监督学习 | #语音伪造检测 #结构化剪枝 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyi Peng (Brno University of Technology, Speech@FIT) 通讯作者:未说明 作者列表:Junyi Peng¹, Lin Zhang², Jiangyu Han¹, Oldřich Plchot¹, Johan Rohdin¹, Themos Stafylakis³,⁴,⁵, Shuai Wang⁶, Jan Černocký¹ (1. Speech@FIT, Brno University of Technology, Czechia; 2. Johns Hopkins University, USA; 3. Athens University of Economics and Business; 4. Omilia; 5. Archimedes/Athena R.C., Greece; 6. Nanjing University, China) 💡 毒舌点评 亮点在于优雅地将模型剪枝与任务微调合并为单阶段训练,省去了复杂的多步流水线,且在多个基准上效果拔群,甚至能充当正则化提升泛化能力;短板在于对“为什么学出的剪枝模式是这样的”这一现象的理论解释稍显薄弱,更多是现象描述而非机理剖析。 ...

2026-04-29

ICASSP 2026 - 语音伪造检测 论文列表

ICASSP 2026 - 语音伪造检测 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分 前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分 前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分 前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分 前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分 前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分 前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分 前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分 前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

2026-04-29