📄 Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge

#数据增强 #自监督学习

6.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

Xueping Zhang (Duke Kunshan University), Han Yin (Korea Advanced Institute of Science and Technology), Yang Xiao (The University of Melbourne), Lin Zhang (Johns Hopkins University), Ting Dang (The University of Melbourne), Rohan Kumar Das (Fortemedia Singapore), Ming Li (The Chinese University of Hong Kong, Shenzhen)。

💡 毒舌点评

一篇中规中矩的挑战赛总结。核心价值是组织和报告，而非技术创新。分析部分流于表面，主要罗列了获奖系统的共性（用SSL、做集成、加数据），但没深挖“为什么这些组合就work了”。缺乏和经典ASVspoof挑战赛的对比，显得视野不够开阔。作为顶会论文，贡献单薄，更适合放在workshop或作为数据集发布的补充说明。

📌 核心摘要

本文总结了于ICME 2026举办的环境感知语音与声音深度伪造检测挑战赛（ESDD2）。该挑战赛聚焦于组件级伪造（语音和环境音可分别被篡改），使用CompSpoofV2数据集（>25万条音频），并提供了分离增强联合学习基线系统。挑战赛吸引了94个团队注册，最终13个队伍进入分析。最佳系统（宏F1 0.8775）大幅超越基线（0.6327）。论文分析了顶尖系统的设计趋势，指出模块化任务分解、使用跨域自监督学习骨干（如XLS-R、EAT等）、针对性数据增强（如RawBoost）以及选择性模型集成是取得高性能的关键，而非简单增大模型规模。同时，辅助EER分析揭示了在检测伪造环境音和泛化到未见生成器方面仍面临挑战。

🔗 开源详情

代码：论文中提及“baseline code remain publicly available for reproducibility”，但未提供具体代码仓库链接（如GitHub）。
模型权重：论文中未提及具体的模型权重下载链接。论文提到了多个自监督学习骨干网络（如XLS-R, EAT），但未提供其预训练权重的直接链接。XLS-R提供了HuggingFace链接：https://huggingface.co/facebook/wav2vec2-xls-r-300m。
数据集：CompSpoofV2 数据集。获取链接为：https://xuepingzhang.github.io/CompSpoof-V2-Dataset/。
Demo：论文中未提及。
复现材料：论文中未提及具体的训练配置、检查点或完整复现材料链接。论文引用了挑战赛评估计划[12]，但未提供其具体链接。
论文中引用的开源项目：
- XLS-R：提供了HuggingFace链接：https://huggingface.co/facebook/wav2vec2-xls-r-300m。
- EAT、SSLAM、Dasheng、DF-Arena、RawBoost、TCM-ADD、SLS、XLSR-Mamba：论文中提及了这些模型或方法，但均未提供具体链接。

作者与机构

毒舌点评

核心摘要

方法概述和架构

本文本身不提出新算法，而是总结挑战赛中参赛系统的设计趋势。其核心“方法”在于挑战赛的设计与参赛系统的分析。

挑战赛任务设计：ESDD2任务要求检测音频是原始未混合（Class 0: original）还是混合音频，并进一步判断混合音频中语音和环境声组件的真实性，共分为5类（原始、语音真环境假、语音假环境真、两者均假等）。这对应了现实世界中可能出现的多种组合式伪造场景。
数据集：使用CompSpoofV2数据集，包含超过25万条4秒音频片段（约283小时）。该数据集扩展了攻击源、环境声多样性和混合策略。训练/验证集同源同分布，测试集包含训练时未见的新型伪造样本，旨在评估泛化能力。
基线系统：官方基线是“分离增强联合学习”框架。其架构如图2所示，主要包含三个阶段：（1）混合级别检测（判断输入是否为混合音频）；（2）将混合音频分离为独立的语音和环境声组件；（3）针对每个组件分别应用独立的反欺骗模型进行真伪判断，最后融合五个组件的输出（原始、语音真/假、环境声真/假）得到最终的五分类预测。关键点在于，分离模块和反欺骗模块是联合训练的，以确保分离出的组件中保留了对欺骗检测有用的线索。
评估标准：最终排名基于五类别的宏平均F1分数（Macro-F1），该指标平等对待所有类别。同时，报告了三个辅助EER指标（原始类EER、语音组件EER、环境声组件EER）用于诊断分析，但不用于排名。
对参赛系统设计的分析：论文将顶尖系统的设计归纳为几种关键模式：
- 模块化与任务分解：系统不依赖单一骨干，而是将任务拆分为子问题（如级联流水线、多分支模型）。
- 跨域SSL骨干：广泛使用在不同音频领域预训练的自监督模型，如语音域的XLS-R，以及音频/事件域的EAT、SSLAM、Dasheng、DF-Arena等，以捕捉不同类型的欺骗线索。
- 选择性集成：集成质量比数量更重要。小规模但多样性高的模型组合（不同骨干、不同任务分工）往往优于大规模同质化集成。
- 针对性数据增强：RawBoost、Codec仿真、添加噪声等方法被广泛用于提升鲁棒性，尤其针对环境声伪造。
- 架构多样性：顶级方案覆盖了端到端分类、级联流水线、多骨干融合、基于分离的设计、基于特征解纠缠的设计等多种架构，并强调对语音和环境线索的精细化建模与融合。

核心创新点

作为挑战赛总结报告，其创新点不在于提出新算法，而在于：

定义和推广新任务：首次系统性地组织和评估针对“组件级”音频伪造的检测挑战赛，这是一个更贴近现实、更复杂的伪造场景。
提供基准与数据：提供了包含新任务定义、数据集、基线代码和评估协议的完整基准，为社区后续研究提供了起点。
提炼设计模式：通过分析多支顶尖参赛系统，总结出了在当前条件下有效应对该挑战的一系列工程实践和设计原则（如模块化、跨域SSL、选择性集成），为后续研究者提供了实用的设计参考。

实验结果

挑战赛的主要结果如表I所示，列出了前12名团队的系统关键指标。最佳系统（团队AHU）的宏F1分数为0.8775，大幅领先基线系统的0.6327。

表1: ESDD2挑战赛前12名系统性能 (F1-score / Original EER / Speech EER / Environmental EER)

排名	团队	系统名称	集成模型数	参数量	数据增强	验证集结果	测试集结果
1	AHU	E2E-EA-SSDD	7	6.56B	(1)(2)	-	0.8775 / - / - / -
2	CUC	EnvTriCascade	2	540.81M	(1)	-	0.8266 / - / - / -
3	SETW	FrozenSSL-Ens4	4	1908M	(1)(3)(4)(5)	0.8124 / - / - / -	0.8200 / - / - / -
4	HKUST(GZ)	GLADSE	2	674.57M	(1)	0.7120 / 0.0102 / 0.1201 / 0.0999	0.8077 / 0.0133 / 0.0896 / 0.0926
5	SIT	CompEnsFusion	8	4.6B	(1)	0.7715 / 0.0124 / 0.2177 / 0.1341	0.7828 / 0.0109 / 0.2164 / 0.1263
6	WHU	LaMSep-DF	1	356.85M	(1)	0.7045 / 0.0227 / 0.2889 / 0.2218	0.7262 / 0.0150 / 0.1171 / 0.0869
7	JAIST_1	MIF	4	1034.15M	-	0.6995 / 0.0560 / 0.1852 / 0.1436	0.7187 / 0.0345 / 0.1562 / 0.1100
8	SCISTOR	HeteroSSL-Fus	1	440M	(1)(3)(4)(5)	-	0.7137 / 0.0314 / 0.3010 / 0.1594
9	JAIST_2	EAT-XLSR-MTL	2	523.09M	(6)	0.6274 / 0.0977 / 0.2349 / 0.1470	0.7124 / 0.0116 / 0.2604 / 0.1703
10	XHU	CAFM-MTL	2	-	-	-	0.7056 / 0.0172 / 0.1053 / 0.1228
11	JAIST_3	XLSR+BEATs+MH[9]	1	398.140M	(3)(5)(7)(8)	0.7011 / 0.0299 / 0.3140 / 0.1654	0.7019 / 0.0259 / 0.3298 / 0.1883
12	NBU	Feature Decomp.	1	654.00M	-	0.5962 / 0.0179 / 0.4489 / 0.4568	0.6977 / 0.0172 / 0.2307 / 0.2853
13	IITJ	CompMulTask	1	957M	(9)(10)(11)(12)	0.6828 / 0.0632 / 0.1599 / 0.1155	0.6840 / 0.0644 / 0.1587 / 0.1126
-	基线	Separation + AASIST	1	957.85M	-	0.6224 / 0.0174 / 0.1993 / 0.4336	0.6327 / 0.0173 / 0.1978 / 0.4279

数据增强方法注释： (1)RawBoost; (2)Loudness Aug.; (3)Codec Aug.; (4)Volume Perturbation; (5)Additive Noise; (6)SpecAugment; (7)Mixup; (8)Temporal aug.; (9)Random Cropping; (10)Zero-padding; (11)Mini-batch Shuffling; (12)Class-balanced.

关键结果分析：

性能提升：最佳宏F1达0.8775，相比基线0.6327提升显著（+24.48个百分点）。
效率与规模：排名前二的系统（团队1和2）在模型规模（6.56B vs 540.81M）和集成策略上差异巨大，表明高效的架构设计比单纯扩大模型规模更重要。
SSL骨干的重要性：多个顶尖系统（团队2,3,5,7,9,11）明确使用了跨域（如语音+音频）SSL模型。
环境声伪造检测难点：从辅助EER指标看，环境声组件的EER（Environmental EER）在许多系统中高于语音组件EER（Speech EER）和原始类EER（Original EER），尤其是基线系统（0.4279），验��了检测环境声伪造的挑战性。
泛化能力：测试集包含未见生成器，排名在验证集和测试集间存在变动（如团队3和4），暗示了泛化问题的存在。

细节详述

评分理由

创新性 (0.5/2)：作为挑战赛总结，其贡献在于任务定义、数据集提供和结果报告，而非提出新的检测理论或算法。创新性主要体现在对“组件级伪造”这一新任务场景的系统性组织和初步分析。
技术严谨性 (1.0/1.5)：论文报告了挑战赛的完整设置（数据集、任务、基线、评估标准），并对结果进行了合理的统计和观察总结。但分析部分缺乏对参赛系统设计有效性的深入机制探讨或控制变量分析，严谨性受限于报告性质。
实验充分性 (1.0/2)：报告了完整的挑战赛结果（排行榜、宏F1及辅助EER），并展示了基线对比。但缺乏对参赛系统更详细的技术描述、消融实验，以及与其他主流检测范式（如ASVspoof挑战赛方法）的对比实验。EER指标的分析图表缺失。
清晰度 (1.0/1.5)：论文结构清晰，任务图示明确。但II-B节基线描述高度依赖引用[11]；III节的分析偏重定性趋势总结，部分描述略显冗长，技术深度对比不足。
影响力 (1.0/1.5)：为“组件级音频伪造检测”这一新兴子领域提供了首个公开基准和挑战赛，对引导相关研究方向有积极意义。总结的设计模式对同领域实践者有参考价值。但作为挑战赛报告，其长期影响力取决于后续工作对该基准的跟进和超越。
开源 (0.5/1)：提供了CompSpoofV2数据集的公开获取链接。基线代码声称公开但未提供具体仓库链接，可获取性存疑。未提供模型权重和完整复现材料。
可复现性 (0.5/1)：数据集公开为复现提供了基础。但基线代码链接缺失，且顶尖系统均未开源，读者无法仅凭本文复现任何高分结果。论文对关键实现细节（如具体SSL模型的微调策略、融合方法）描述不足。
工程/实践价值 (0.8/1)：论文最大的价值在于工程实践指导。它通过大规模竞赛验证了“模块化设计+跨域SSL+针对性增强+选择性集成”这一技术路线在当前组件级检测任务上的有效性，为工程师和研究者提供了明确的改进方向和设计清单。

局限与问题

分析深度不足：论文识别了有效的设计模式（如使用SSL骨干），但未探究“为什么”这些模式有效。例如，不同SSL骨干（语音域 vs 音频域）在捕捉不同伪造线索上的具体贡献差异缺乏分析。
缺乏机制性对比：未将ESDD2的顶尖系统与ASVspoof等经典挑战赛的顶尖系统进行对比讨论，未能阐明“组件级”检测任务与“全段”检测任务在模型设计需求上的本质区别。
结论概括性强但具体指导弱：结论中提到的“未来方向”（扩展数据集、发展可解释检测）较为笼统，未能基于本次挑战赛的具体挑战（如环境声伪造检测弱）提出更聚焦的技术路线建议。
报告性质限制：作为挑战赛概述，其固有局限是无法呈现每个参赛系统的完整技术细节和消融研究，使得设计模式的总结停留在相关性层面，而非因果性证明。
评估维度单一：主要评估指标是宏F1，虽然平衡了类别，但对于实际部署至关重要的推理效率、模型复杂度、实时性等工程指标未纳入评估和讨论。

开源详情

代码：论文中未提供具体代码仓库链接（如GitHub）。仅提到“baseline code remain publicly available for reproducibility”。
模型权重：论文中未提供具体的模型权重下载链接。提到了XLS-R, EAT等多个SSL模型，但仅XLS-R附带了HuggingFace链接：https://huggingface.co/facebook/wav2vec2-xls-r-300m。
数据集：CompSpoofV2 数据集。获取链接为：https://xuepingzhang.github.io/CompSpoof-V2-Dataset/。
Demo：未提及。
复现材料：未提及具体的训练配置、检查点或完整复现材料链接。
论文中引用的开源项目：
- XLS-R：提供了HuggingFace链接：https://huggingface.co/facebook/wav2vec2-xls-r-300m。
- EAT、SSLAM、Dasheng、DF-Arena、RawBoost、TCM-ADD、SLS、XLSR-Mamba：论文中提及了这些模型或方法，但均未提供具体链接。

🏗️ 方法概述和架构

本文本身不提出新算法，而是总结挑战赛中参赛系统的设计趋势。其核心“方法”在于挑战赛的设计与参赛系统的分析。

挑战赛任务设计：ESDD2任务要求检测音频是原始未混合（Class 0: original）还是混合音频，并进一步判断混合音频中语音和环境声组件的真实性，共分为5类（原始、语音真环境假、语音假环境真、两者均假等）。这对应了现实世界中可能出现的多种组合式伪造场景。
数据集：使用CompSpoofV2数据集，包含超过25万条4秒音频片段（约283小时）。该数据集扩展了攻击源、环境声多样性和混合策略。训练/验证集同源同分布，测试集包含训练时未见的新型伪造样本，旨在评估泛化能力。
基线系统：官方基线是“分离增强联合学习”框架。其架构如图2所示，主要包含三个阶段：（1）混合级别检测（判断输入是否为混合音频）；（2）将混合音频分离为独立的语音和环境声组件；（3）针对每个组件分别应用独立的反欺骗模型进行真伪判断，最后融合五个组件的输出（原始、语音真/假、环境声真/假）得到最终的五分类预测。关键点在于，分离模块和反欺骗模块是联合训练的，以确保分离出的组件中保留了对欺骗检测有用的线索。
评估标准：最终排名基于五类别的宏平均F1分数（Macro-F1），该指标平等对待所有类别。同时，报告了三个辅助EER指标（原始类EER、语音组件EER、环境声组件EER）用于诊断分析，但不用于排名。
对参赛系统设计的分析：论文将顶尖系统的设计归纳为几种关键模式：
- 模块化与任务分解：系统不依赖单一骨干，而是将任务拆分为子问题（如级联流水线、多分支模型）。
- 跨域SSL骨干：广泛使用在不同音频领域预训练的自监督模型，如语音域的XLS-R，以及音频/事件域的EAT、SSLAM、Dasheng、DF-Arena等，以捕捉不同类型的欺骗线索。
- 选择性集成：集成质量比数量更重要。小规模但多样性高的模型组合（不同骨干、不同任务分工）往往优于大规模同质化集成。
- 针对性数据增强：RawBoost、Codec仿真、添加噪声等方法被广泛用于提升鲁棒性，尤其针对环境声伪造。
- 架构多样性：顶级方案覆盖了端到端分类、级联流水线、多骨干融合、基于分离的设计、基于特征解纠缠的设计等多种架构，并强调对语音和环境线索的精细化建模与融合。

💡 核心创新点

作为挑战赛总结报告，其创新点不在于提出新算法，而在于：

定义和推广新任务：首次系统性地组织和评估针对“组件级”音频伪造的检测挑战赛，这是一个更贴近现实、更复杂的伪造场景。
提供基准与数据：提供了包含新任务定义、数据集、基线代码和评估协议的完整基准，为社区后续研究提供了起点。
提炼设计模式：通过分析多支顶尖参赛系统，总结出了在当前条件下有效应对该挑战的一系列工程实践和设计原则（如模块化、跨域SSL、选择性集成），为后续研究者提供了实用的设计参考。

📊 实验结果

挑战赛的主要结果如表I所示，列出了前12名团队的系统关键指标。最佳系统（团队AHU）的宏F1分数为0.8775，大幅领先基线系统的0.6327。

表1: ESDD2挑战赛前12名系统性能 (F1-score / Original EER / Speech EER / Environmental EER)

排名	团队	系统名称	集成模型数	参数量	数据增强	验证集结果	测试集结果
1	AHU	E2E-EA-SSDD	7	6.56B	(1)(2)	-	0.8775 / - / - / -
2	CUC	EnvTriCascade	2	540.81M	(1)	-	0.8266 / - / - / -
3	SETW	FrozenSSL-Ens4	4	1908M	(1)(3)(4)(5)	0.8124 / - / - / -	0.8200 / - / - / -
4	HKUST(GZ)	GLADSE	2	674.57M	(1)	0.7120 / 0.0102 / 0.1201 / 0.0999	0.8077 / 0.0133 / 0.0896 / 0.0926
5	SIT	CompEnsFusion	8	4.6B	(1)	0.7715 / 0.0124 / 0.2177 / 0.1341	0.7828 / 0.0109 / 0.2164 / 0.1263
6	WHU	LaMSep-DF	1	356.85M	(1)	0.7045 / 0.0227 / 0.2889 / 0.2218	0.7262 / 0.0150 / 0.1171 / 0.0869
7	JAIST_1	MIF	4	1034.15M	-	0.6995 / 0.0560 / 0.1852 / 0.1436	0.7187 / 0.0345 / 0.1562 / 0.1100
8	SCISTOR	HeteroSSL-Fus	1	440M	(1)(3)(4)(5)	-	0.7137 / 0.0314 / 0.3010 / 0.1594
9	JAIST_2	EAT-XLSR-MTL	2	523.09M	(6)	0.6274 / 0.0977 / 0.2349 / 0.1470	0.7124 / 0.0116 / 0.2604 / 0.1703
10	XHU	CAFM-MTL	2	-	-	-	0.7056 / 0.0172 / 0.1053 / 0.1228
11	JAIST_3	XLSR+BEATs+MH[9]	1	398.140M	(3)(5)(7)(8)	0.7011 / 0.0299 / 0.3140 / 0.1654	0.7019 / 0.0259 / 0.3298 / 0.1883
12	NBU	Feature Decomp.	1	654.00M	-	0.5962 / 0.0179 / 0.4489 / 0.4568	0.6977 / 0.0172 / 0.2307 / 0.2853
13	IITJ	CompMulTask	1	957M	(9)(10)(11)(12)	0.6828 / 0.0632 / 0.1599 / 0.1155	0.6840 / 0.0644 / 0.1587 / 0.1126
-	基线	Separation + AASIST	1	957.85M	-	0.6224 / 0.0174 / 0.1993 / 0.4336	0.6327 / 0.0173 / 0.1978 / 0.4279

关键结果分析：

性能提升：最佳宏F1达0.8775，相比基线0.6327提升显著（+24.48个百分点）。
效率与规模：排名前二的系统（团队1和2）在模型规模（6.56B vs 540.81M）和集成策略上差异巨大，表明高效的架构设计比单纯扩大模型规模更重要。
SSL骨干的重要性：多个顶尖系统（团队2,3,5,7,9,11）明确使用了跨域（如语音+音频）SSL模型。
环境声伪造检测难点：从辅助EER指标看，环境声组件的EER（Environmental EER）在许多系统中高于语音组件EER（Speech EER）和原始类EER（Original EER），尤其是基线系统（0.4279），验��了检测环境声伪造的挑战性。
泛化能力：测试集包含未见生成器，排名在验证集和测试集间存在变动（如团队3和4），暗示了泛化问题的存在。

⚖️ 评分理由

创新性 (0.5/2)：作为挑战赛总结，其贡献在于任务定义、数据集提供和结果报告，而非提出新的检测理论或算法。创新性主要体现在对“组件级伪造”这一新任务场景的系统性组织和初步分析。
技术严谨性 (1.0/1.5)：论文报告了挑战赛的完整设置（数据集、任务、基线、评估标准），并对结果进行了合理的统计和观察总结。但分析部分缺乏对参赛系统设计有效性的深入机制探讨或控制变量分析，严谨性受限于报告性质。
实验充分性 (1.0/2)：报告了完整的挑战赛结果（排行榜、宏F1及辅助EER），并展示了基线对比。但缺乏对参赛系统更详细的技术描述、消融实验，以及与其他主流检测范式（如ASVspoof挑战赛方法）的对比实验。EER指标的分析图表缺失。
清晰度 (1.0/1.5)：论文结构清晰，任务图示明确。但II-B节基线描述高度依赖引用[11]；III节的分析偏重定性趋势总结，部分描述略显冗长，技术深度对比不足。
影响力 (1.0/1.5)：为“组件级音频伪造检测”这一新兴子领域提供了首个公开基准和挑战赛，对引导相关研究方向有积极意义。总结的设计模式对同领域实践者有参考价值。但作为挑战赛报告，其长期影响力取决于后续工作对该基准的跟进和超越。
开源 (0.5/1)：提供了CompSpoofV2数据集的公开获取链接。基线代码声称公开但未提供具体仓库链接，可获取性存疑。未提供模型权重和完整复现材料。
可复现性 (0.5/1)：数据集公开为复现提供了基础。但基线代码链接缺失，且顶尖系统均未开源，读者无法仅凭本文复现任何高分结果。论文对关键实现细节（如具体SSL模型的微调策略、融合方法）描述不足。
工程/实践价值 (0.8/1)：论文最大的价值在于工程实践指导。它通过大规模竞赛验证了“模块化设计+跨域SSL+针对性增强+选择性集成”这一技术路线在当前组件级检测任务上的有效性，为工程师和研究者提供了明确的改进方向和设计清单。

🚨 局限与问题

分析深度不足：论文识别了有效的设计模式（如使用SSL骨干），但未探究“为什么”这些模式有效。例如，不同SSL骨干（语音域 vs 音频域）在捕捉不同伪造线索上的具体贡献差异缺乏分析。
缺乏机制性对比：未将ESDD2的顶尖系统与ASVspoof等经典挑战赛的顶尖系统进行对比讨论，未能阐明“组件级”检测任务与“全段”检测任务在模型设计需求上的本质区别。
结论概括性强但具体指导弱：结论中提到的“未来方向”（扩展数据集、发展可解释检测）较为笼统，未能基于本次挑战赛的具体挑战（如环境声伪造检测弱）提出更聚焦的技术路线建议。
报告性质限制：作为挑战赛概述，其固有局限是无法呈现每个参赛系统的完整技术细节和消融研究，使得设计模式的总结停留在相关性层面，而非因果性证明。
评估维度单一：主要评估指标是宏F1，虽然平衡了类别，但对于实际部署至关重要的推理效率、模型复杂度、实时性等工程指标未纳入评估和讨论。

← 返回 2026-06-10 语音/音乐/音频论文速递

📄 Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

标签#

作者与机构#

毒舌点评#

核心摘要#

方法概述和架构#

核心创新点#

实验结果#

细节详述#

评分理由#

局限与问题#

开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文