Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection

📄 Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection #语音伪造检测 #数据增强 #鲁棒性 #梯度优化 ✅ 7.0/10 | 前25% | #语音伪造检测 | #数据增强 | #鲁棒性 #梯度优化 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Duc-Tuan Truong(南洋理工大学,新加坡) 通讯作者:Ruijie Tao(新加坡国立大学)、Kong Aik Lee(香港理工大学)(论文中标注为共同通讯作者) 作者列表:Duc-Tuan Truong(南洋理工大学)、Tianchi Liu(新加坡国立大学)、Junjie Li(香港理工大学)、Ruijie Tao(新加坡国立大学)、Kong Aik Lee(香港理工大学)、Eng Siong Chng(南洋理工大学) 💡 毒舌点评 亮点:论文首次敏锐地指出了“数据增强双路径训练中同一语句的原始与增强版本梯度冲突”这一被忽视却普遍存在的现象,并设计了优雅的DPDA框架加以解决,理论分析(损失曲面可视化)与实验证据结合得很有说服力。短板:核心的“梯度对齐”技术(PCGrad等)是直接“借用”自多任务学习领域,本文的创新更多在于问题发现和技术迁移应用,而非算法本身的原创性突破。 🔗 开源详情 代码:论文明确提供了代码仓库链接:github.com/ductuantruong/dpda_ga。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文使用的ASVspoof2019 LA、ASVspoof2021 DF、In-the-Wild、FoR均为公开数据集,但未说明具体获取方式。 Demo:未提供在线演示。 复现材料:提供了代码仓库,是核心复现材料。论文描述了模型架构、数据增强方法(RawBoost配置4)、训练策略(如早停、批大小)等关键细节,但缺少如学习率、优化器、具体硬件等训练超参数。 引用的开源项目:论文依赖并提及了XLSR模型(来自Hugging Face)、RawBoost增强工具、以及作为对比的多种SDD模型代码。 📌 核心摘要 本文针对语音深度伪造检测(SDD)模型在使用数据增强(DA)训练时,原始输入与增强输入反向传播梯度方向不一致(冲突)导致优化矛盾、影响模型泛化的问题,提出了一种双路径数据增强训练框架与梯度对齐方法。该框架将每个训练语句同时通过原始路径和增强路径输入共享模型,计算损失后,在梯度更新前使用PCGrad等梯度对齐技术处理冲突。主要创新在于首次在SDD领域系统研究并量化了DA训练中的梯度冲突(约25%的迭代存在冲突),并通过损失曲面可视化证明冲突源于不同的损失景观。实验表明,该方法在XLSR-AASIST、XLSR-Conformer-TCM、XLSR-Mamba三种架构上,配合RawBoost等多种增强方法,在ASVspoof2021-DF、In-the-Wild、FoR等挑战性测试集上均能稳定提升性能。例如,在XLSR-Conformer-TCM上,使用PCGrad在ITW数据集上将EER从7.97%降至6.48%,相对降低约18.69%。该方法能加速收敛(提前至第4个epoch达到最低验证损失)。其实际意义在于提供了一种即插即用、与模型和增强技术无关的训练优化策略,以提升SDD的鲁棒性。局限性在于主要从经验层面分析,缺乏对梯度冲突产生理论条件的深层探究,且梯度对齐技术本身非本文原创。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 261 words

Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

📄 Audio-Visual Deepfake Generation and Detection: An Exploratory Survey #音频深度伪造检测 #语音伪造检测 #对比学习 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn) 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所) 💡 毒舌点评 这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。 🔗 开源详情 代码:论文中未提及提供本文相关的代码仓库链接。论文指出,许多被评估的检测器“要么没有开放其实现代码,要么发布的代码或模型不完整”,因此论文作者对这些检测器进行了重新实现或训练。 模型权重:未提及。 数据集:论文评估所用的数据集(FakeAVCeleb, IDForge, AVLips, LAV-DF)是已公开的,但论文未提供获取方式或整理脚本。 Demo:未提及。 复现材料:论文为每个检测器标注了参考文献,并说明了重新训练/评估的总体原则,但未提供详细的复现配置文件、超参数列表或检查点。 论文中引用的开源项目:论文作为综述,引用了大量生成与检测的原始工作(如Wav2Lip, SadTalker, SpeechForensics等),这些工作本身大多有公开代码,但论文并未将其整合为一个可运行的工具包。 📌 核心摘要 这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 176 words

Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset

📄 Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset #语音伪造检测 #数据集 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音伪造检测 | #数据集 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Maria Risques(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 通讯作者:Edward J. Delp(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 作者列表:Maria Risques(普渡大学 VIPER 实验室)、Kratika Bhagtani(普渡大学 VIPER 实验室)、Amit Kumar Singh Yadav(普渡大学 VIPER 实验室)、Edward J. Delp(普渡大学 VIPER 实验室) 💡 毒舌点评 亮点:论文精准地切入了一个关键且被忽视的研究空白——西班牙语语音伪造检测,通过构建首个大规模、多口音的合成/真实语音数据集 HISPASpoof,为后续研究提供了不可或缺的基石,填补了领域的重大缺口。短板:论文的核心贡献是“数据集+评估”,并未提出新的检测或归因模型或算法,其学术创新主要体现在数据工程和实验验证层面,而非方法论的突破。 🔗 开源详情 代码:提供了评估代码的GitLab仓库链接:https://gitlab.com/viper-purdue/s3d-spanish-syn-speech-det.git。论文中也提及了使用的具体方法代码库来源[47]。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:HISPASpoof数据集已公开,采用CC BY-SA 4.0许可,可通过上述GitLab仓库链接获取。 Demo:论文中未提及提供在线演示。 复现材料:提供了数据集的详细分布说明(表I)和实验设置描述(如数据划分),但未提供具体的训练超参数(学习率、优化器、batch size等)、硬件信息和详细的配置文件。 论文中引用的开源项目:使用了多个开源的TTS系统生成数据(XTTS-v1/v2, YourTTS, FishSpeech, F5-Spanish),并评估了多个开源检测器实现(LFCC-GMM, MFCC-ResNet, Spec-ResNet, PaSST, Wav2Vec2-AASIST)。 总体开源情况:论文在数据集和评估代码开源方面做得较好,但完整复现所需的训练细节和模型权重未提供。 📌 核心摘要 问题:当前先进的语音合成(TTS)和语音克隆技术可生成高度逼真的合成语音,带来严重的欺诈和滥用风险。尽管针对英语和中文已有成熟的检测器和数据集,但作为全球6亿人使用的语言,西班牙语在语音取证领域却严重缺乏研究和评估基准。 方法核心:本文提出了 HISPASpoof 数据集,这是首个大规模西班牙语合成语音检测与归因数据集。数据集包含来自6个公开语料库(涵盖6种西班牙语口音)的真实语音,以及由6种前沿的零样本TTS系统生成的合成语音。论文利用该数据集,系统评估了5种代表性的检测方法在跨语言(英语→西班牙语)和特定语言(西班牙语)训练下的性能。 新意:这是首个专门针对西班牙语的、大规模、多口音、多合成器的语音伪造检测与归因数据集。与以往多语言数据集(如ODSS)相比,HISPASpoof在西班牙语音频数量(超过50万条)、口音多样性(6种)和合成系统多样性(6种)上均有显著提升。 主要实验结果: 检测性能:实验证明,在英语数据集(ASVspoof2019)上训练的检测器直接应用于西班牙语时性能急剧下降(EER普遍高于30%,最差达49.57%)。在HISPASpoof上训练后,检测性能大幅提升。具体关键结果见下表: 训练集 测试集 LFCC+GMM EER(%) MFCC-ResNet EER(%) Spec-ResNet EER(%) PaSST EER(%) Wav2Vec2-AASIST EER(%) ASVspoof2019 (英语) UHIS (西班牙语) 42.71 41.72 43.23 32.14 19.92 HISPASpoof (西班牙语) UHIS (西班牙语) 1.57 5.17 0.72 4.10 10.27 HISPASpoof (西班牙语) UODSSSpa (跨数据集) 0.85 48.72 17.09 17.95 43.59 归因性能:在归因(识别合成器)任务中,闭集设置下各方法均接近完美(PaSST准确率100%)。开放集(需识别未见过的合成器)更具挑战性,PaSST表现最佳(准确率78.32%),Spec-ResNet次之(69.73%)。 实际意义:HISPASpoof 为西班牙语语音安全研究提供了关键的评测基准,揭示了现有英语检测器在西班牙语上的失效,并验证了使用领域内数据训练的有效性,推动了语音取证研究的包容性发展。 主要局限性:论文的核心是提出数据集并进行基线评估,没有提出新的检测或归因算法。开源计划中未提及模型权重的公开。 🏗️ 模型架构 本文未提出新的检测或归因模型架构。其核心工作是构建数据集并评估五种已有的代表性方法,这些方法可分为三类: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 325 words

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院) 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。 💡 毒舌点评 论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:实验使用了公开的PartialSpoof和ADD2023数据集,但论文本身未发布新数据集。 Demo:未提及在线演示。 复现材料:提供了较为详细的训练配置(优化器、学习率、批量大小、损失权重、硬件),但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:引用了Wav2Vec2预训练模型(作为特征提取器)。 总结:论文中未提及明确的开源计划。 📌 核心摘要 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。 主要对比实验结果(表1): 方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 316 words

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Tong Zhang (武汉大学 网络空间安全学院) 通讯作者:Yanzhen Ren (武汉大学 网络空间安全学院) 作者列表:Tong Zhang (武汉大学 网络空间安全学院), Yihuan Huang (武汉大学 网络空间安全学院), Yanzhen Ren (武汉大学 网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评 亮点:这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”,精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点,数据集构建的系统性和全面性值得称道。短板:它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”,在检测模型本身并无创新,且基线评估略显常规,距离真正解决“重放攻击”这一顽疾还有距离。 🔗 开源详情 代码:提供。论文明确说明数据集、代码和自动化录制工具已开源,链接为:https://github.com/EchoFake/EchoFake/ 模型权重:未提及。论文仅评估了现有基线模型,未提出新模型。 数据集:已公开。EchoFake数据集可通过上述GitHub仓库获取。 Demo:未提及。 复现材料:提供了详尽的训练细节(学习率、batch size等)、超参数、数据集划分统计、预处理流程,复现基础良好。 论文中引用的开源项目:列出了所使用的多种开源TTS模型,如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等(详见参考文献和数据集构建部分)。 论文中未提及开源计划:所��必要的复现材料已在论文发表时一并开源。 📌 核心摘要 问题:现有的音频深度伪造检测模型在实验室环境下表现良好,但在面对真实世界中常见的低成本“物理重放攻击”(即将合成语音通过扬声器播放并重新录制)时,性能会急剧下降,严重威胁其实际部署的可靠性。 方法:为了解决这一问题,作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音(TTS)生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型:真实语音、重放真实语音、伪造语音、重放伪造语音。 创新:与已有数据集(如ASVspoof)主要关注单一攻击方式(仅合成或仅重放真实语音)不同,EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时,它采用了多种最新开源的零样本TTS模型,并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。 主要实验结果: 使用EchoFake训练的三个基线模型(RawNet2, AASIST, Wav2Vec2)在跨数据集评估中表现出更好的泛化能力,平均EER显著低于在传统数据集上训练的模型(见表3)。 模型在EchoFake封闭集评估中表现优异(如AASIST的二分类EER为0.46%),但在开放集评估中性能大幅下降(如AASIST的二分类EER升至14.88%),重放样本是主要错误来源(见表4)。 消融实验证明,在训练数据中包含重放样本,能显著提升模型在重放攻击场景下的鲁棒性,而在传统基准上性能损失很小。 实际意义:EchoFake提供了一个更接近真实威胁模型的评估基准,有助于推动检测算法从实验室走向实际应用,提升对复杂欺诈攻击的防御能力。 局限性:尽管模型在EchoFake上得到提升,但在面对未见过的重放条件(开放集)时,性能仍有明显下降,表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构 未说明。本文是一篇数据集论文,其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型(RawNet2, AASIST, Wav2Vec2)的详细架构并非本文创新点,故在此不展开描述。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 393 words

Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

📄 Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform #语音伪造检测 #自监督学习 #数据增强 #鲁棒性 #基准测试 ✅ 7.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #数据增强 #鲁棒性 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuankun Xie(Communication University of China, Beijing, China) 通讯作者:Ruibo Fu(Institute of Automation, Chinese Academy of Sciences, Beijing, China),Long Ye(Communication University of China, Beijing, China) 作者列表:Yuankun Xie(中国传媒大学),Ruibo Fu(中国科学院自动化研究所),Xiaopeng Wang(北京理工大学),Zhiyong Wang(中国科学院自动化研究所),Ya Li(北京邮电大学),Yingming Gao(北京邮电大学),Zhengqi Wen(北京国家信息科学与技术研究中心,清华大学),Haonan Cheng(中国传媒大学),Long Ye(中国传媒大学) 💡 毒舌点评 这篇论文最大的亮点是做了一件“脏活累活”——构建了一个贴近真实世界、多平台、多账户的中文深度伪造语音数据集(FSW),并用它系统性地戳穿了现有检测模型在“温室”数据集上虚假的高性能泡沫,为社区提供了更严格的评估标准。短板在于,它本质上是“评估”和“诊断”工作,虽然实用,但并未提出一种具有突破性的新型检测模型架构,更像是为后续工作铺设了一条更真实的跑道。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 418 words

Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection

📄 Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection #语音伪造检测 #自监督学习 #模型评估 #Conformer 🔥 8.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #模型评估 #Conformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Phuong Tuan Dat (河内科技大学信息与通信技术学院) 通讯作者:Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 作者列表:Phuong Tuan Dat (河内科技大学信息与通信技术学院), Duc-Tuan Truong (南洋理工大学计算与数据科学学院), Long-Vu Hoang (河内科技大学信息与通信技术学院), Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 💡 毒舌点评 亮点:论文将细粒度视觉分类的“投票选择”思想巧妙移植到语音领域,通过显式建模注意力头的“专长”并选择性聚合关键帧,有效解决了标准MHSA可能忽略局部伪造伪影的问题,方法新颖且有效。短板:高斯核增强的卷积核是固定的([1, 2, 3, 4, 3, 2, 1]),缺乏理论依据或可学习性分析;且所选关键帧数量v需人工调优,在不同音频长度或任务下可能不具备普适性。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 299 words

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

📄 Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing #说话人验证 #语音伪造检测 #自监督学习 #结构化剪枝 #低资源 🔥 8.0/10 | 前25% | #说话人验证 | #自监督学习 | #语音伪造检测 #结构化剪枝 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyi Peng (Brno University of Technology, Speech@FIT) 通讯作者:未说明 作者列表:Junyi Peng¹, Lin Zhang², Jiangyu Han¹, Oldřich Plchot¹, Johan Rohdin¹, Themos Stafylakis³,⁴,⁵, Shuai Wang⁶, Jan Černocký¹ (1. Speech@FIT, Brno University of Technology, Czechia; 2. Johns Hopkins University, USA; 3. Athens University of Economics and Business; 4. Omilia; 5. Archimedes/Athena R.C., Greece; 6. Nanjing University, China) 💡 毒舌点评 亮点在于优雅地将模型剪枝与任务微调合并为单阶段训练,省去了复杂的多步流水线,且在多个基准上效果拔群,甚至能充当正则化提升泛化能力;短板在于对“为什么学出的剪枝模式是这样的”这一现象的理论解释稍显薄弱,更多是现象描述而非机理剖析。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 395 words

ICASSP 2026 - 语音伪造检测 论文列表

ICASSP 2026 - 语音伪造检测 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分 前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分 前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分 前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分 前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分 前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分 前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分 前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分 前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

2026-04-29 · 更新于 2026-06-12 · 5 min · 938 words

Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators

📄 Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators #语音伪造检测 #音位分析 #语音合成 #模型比较 ✅ 7.0/10 | 前25% | #语音伪造检测 | #音位分析 | #语音合成 #模型比较 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 通讯作者:未说明 作者列表:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy)、Fabian Monrose(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 💡 毒舌点评 本文如同一份详尽的“现代语音合成器体检报告”,首次对如此多种类的生成器进行了大规模“病理学”扫描,发现了鼻音和阻塞音这个普遍存在的“病灶”,并精准定位问题主要出在“文本到频谱”的环节,为后续“治疗”(改进生成器或设计更精准的检测器)提供了清晰的诊断书。其短板在于只开出了“诊断书”,却没有附上“药方”或“手术指南”——即基于这些发现提出具体的、新的检测算法或生成器改进方案,且复现门槛较高。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 196 words