Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing

📄 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing #说话人验证 #对比学习 #音频安全 #跨领域 #领域适应 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yitian Ding(国际关系学院,北京,中国) 通讯作者:Yansen Zhou(国际关系学院,北京,中国)论文中标注为通讯作者 作者列表:Yitian Ding(国际关系学院)、Shengchen Li(西交利物浦大学,苏州,中国)、Yansen Zhou(国际关系学院) 💡 毒舌点评 论文的亮点在于将“跨域对齐”、“类内紧致”与“置信度校准”三个目标巧妙地融为一个统一的训练框架(ACC Loss),并配合评估时的动态阈值校准(Centered AS-Norm),形成了一套完整的解决方案,其设计思路和消融实验都做得相当清晰。但略显遗憾的是,论文声称方法“即插即用、数据高效”,却未能开源代码或提供可直接运行的完整复现材料,这限制了学术界对其进行快速验证和在此基础上改进的可能性。 🔗 开源详情 代码:论文中未提及代码链接。文中提到“代码在PyTorch中实现”,但未提供公开仓库地址。 模型权重:未提及是否公开模型权重。 数据集:使用了公开数据集LibriSpeech和VoxCeleb,以及SSTC 2024挑战赛数据集。论文中未说明SSTC 2024数据集的获取方式。 Demo:未提及在线演示。 复现材料:提供了部分关键实现细节(如特征提取、网络结构、损失函数、训练超参数、硬件环境),但不足以完全独立复现,缺少完整的代码和配置文件。 引用的开源项目:论文引用了MFA-Conformer[21]、LibriSpeech[23]、VoxCeleb[24,25]、MUSAN[26]、RIR数据[27]等相关开源工作。 📌 核心摘要 本文针对语音转换(VC)对自动说话人验证(ASV)构成的安全威胁,研究了“源说话人追踪(SST)”任务,即从转换后的语音中识别原始说话人。其核心问题是转换语音与原始语音之间存在领域偏移,且转换语音内部的说话人特征呈现多峰结构,导致特征分布不稳定和固定阈值失效。为此,论文提出了一种“跨域对比学习与动态阈值校准”的统一范式。在训练阶段,提出联合优化ACC损失函数,它结合了对齐损失(InfoNCE,用于跨域对齐)、紧致性损失(IS-CDR,用于减少类内方差)和置信度损失(质量回归,用于质量感知校准)。在评估阶段,采用Centered AS-Norm(全局中心化+自适应归一化)进行分布感知的动态评分校准。在SSTC 2024评测基准上,所提系统在16个测试集上的平均等错误率(EER)为16.509%,超越了挑战赛冠军系统(16.788%),并将官方基线(20.613%)降低了4.104个百分点。消融实验证明,所提出的训练损失和评估后处理机制对性能提升均有显著贡献。该方法的主要贡献在于提供了一个完整的训练-评估闭环,以增强SST任务的跨域泛化能力和分数可校准性。其局限性在于评估场景局限于单一基准,且未公开代码和模型。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 298 words