Distilling Attention Knowledge for Speaker Verification

📄 Distilling Attention Knowledge for Speaker Verification #说话人验证 #知识蒸馏 #注意力机制 #语音预训练模型 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #注意力机制 #语音预训练模型 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者: Zezhong Jin(香港理工大学) 通讯作者: 未明确说明(从作者列表和单位推断,可能为Man-Wai Mak或Kong Aik Lee,但论文未明确标注) 作者列表: Zezhong Jin¹, Shujie Liu², Zhe Li³, Chong-Xin Gan¹, Zilong Huang¹, Man-Wai Mak¹, Kong Aik Lee¹ 香港理工大学 (The Hong Kong Polytechnic University) 微软亚洲研究院 (Microsoft Research Asia) 香港大学 (The University of Hong Kong) 💡 毒舌点评 亮点: 论文巧妙地将主流ASV模型(ECAPA-TDNN)中已有的SE模块和注意力池化层作为“注意力图”的来源,无需额外设计复杂的注意力机制,这种“就地取材”的工程思维很聪明,也让方法更具通用性和可移植性。 短板: 开源信息严重缺失,对于一篇强调“方法有效性”和“复现价值”的会议论文而言,没有代码和模型权重几乎是“反向操作”,极大削弱了其对社区的实际贡献度。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 462 words

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation Guided Structured Pruning

📄 Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation Guided Structured Pruning #说话人验证 #预训练 #知识蒸馏 #模型压缩 #语音大模型 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #预训练 #模型压缩 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ze Li(武汉大学计算机科学学院, 苏州多模态智能系统市重点实验室) 通讯作者:Ming Li(武汉大学人工智能学院, 昆山杜克大学, 苏州多模态智能系统市重点实验室) 作者列表:Ze Li(武汉大学计算机科学学院, 苏州多模态智能系统市重点实验室)、Ming Cheng(武汉大学计算机科学学院, 苏州多模态智能系统市重点实验室)、Ming Li(武汉大学人工智能学院, 昆山杜克大学, 苏州多模态智能系统市重点实验室) 💡 毒舌点评 这篇论文是一次漂亮的大模型“落地”工程实践,成功地将w2v-BERT 2.0这个语言学预训练巨兽改造为说话人验证的利器,并达到了SOTA性能,同时不忘通过剪枝为实际部署铺路,展现了完整的研究闭环。然而,其核心创新更偏向于“技术选型与系统集成”的优秀范例,而非底层算法的突破,更像是用现有最好的工具(MFA, LoRA, 结构化剪枝)精心组装了一台高性能机器,虽然结果亮眼,但缺少让同行惊呼“原来可以这样”的独创性构思。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/ZXHY-82/w2v-BERT-2.0_SV。 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。 数据集:实验所用数据集(VoxCeleb, VoxBlink2, CN-Celeb, MUSAN, RIR Noise)均为公开数据集,但论文未提供数据集的获取指南或处理脚本。 Demo:未提及在线演示。 复现材料:论文给出了详细的模型架构描述(包括各模块维度)、三阶段训练策略(含学习率、优化器、调度器、损失函数参数)、剪枝细节(损失函数、L0建模参数)等,为复现提供了核心框架。部分训练超参数(如batch size)和硬件信息缺失。 引用的开源项目:论文中引用的开源项目包括ECAPA-TDNN、MFA-Conformer、LoRA等,表明其实验���于这些公开的架构和代码思想。 📌 核心摘要 问题:现有说话人验证(SV)系统面临标注数据不足与模型复杂度之间的矛盾,且大规模预训练模型(PTM)的参数量过大,不利于实际部署。 核心方法:首次将基于Conformer架构、在4.5百万小时多语言数据上自监督训练的w2v-BERT 2.0 PTM用于SV任务。采用多尺度特征聚合(MFA)结构结合Layer Adapter处理PTM多层输出,并使用LoRA进行高效微调。为降低部署成本,应用知识蒸馏指导的结构化剪枝技术压缩PTM。 创新点:将w2v-BERT 2.0引入SV;提出“MFA + Layer Adapter + LoRA”的高效适配框架;实现了基于知识蒸馏的结构化剪枝,大幅压缩模型且性能损失极小。 主要结果:在Vox1-O测试集上达到0.12% EER,在Vox1-H上达到0.55% EER,超越了表1中列出的多种前沿方法。通过剪枝将模型参数减少约80%,在Vox1-O上的EER仅从0.14%增加至0.18%,性能退化仅0.04%。 实际意义:为使用超大型预训练模型解决SV问题提供了有效方案,并展示了如何将模型压缩至实际可用的规模,平衡了性能与效率。 局限性:尽管性能优越,但模型初始参数量巨大(约580M),剪枝后的模型(124M)依然较传统SV模型庞大。研究未深入探讨w2v-BERT 2.0中Conformer架构相比Transformer在SV任务上的具体优势机制,且未提供在其他更具挑战性场景(如极端噪声、跨语言)下的全面评估。 🏗️ 模型架构 论文的整体架构旨在将大规模预训练模型w2v-BERT 2.0适配到说话人验证任务,其核心流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 443 words

Face-Voice Association with Inductive Bias for Maximum Class Separation

📄 Face-Voice Association with Inductive Bias for Maximum Class Separation #说话人验证 #跨模态 #归纳偏置 #对比学习 #基准测试 ✅ 7.0/10 | 前25% | #说话人验证 | #归纳偏置 | #跨模态 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序标注第一作者,但根据惯例,Marta Moscati排在首位) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Marta Moscati¹, Oleksandr Kats¹, Mubashir Noman², Muhammad Zaigham Zaheer², Yufang Hou³, Markus Schedl¹’⁴, Shah Nawaz¹ ¹ Johannes Kepler University Linz, Austria ² MBZUAI, UAE ³ IT:U Interdisciplinary Transformation University Austria ⁴ Linz Institute of Technology, Austria 💡 毒舌点评 亮点:论文巧妙地将一个原本用于单模态分类任务的“最大类分离归纳偏置”技术迁移并适配到了多模态的人脸-语音关联领域,且通过扎实的消融实验证明了它与正交约束损失结合后的“1+1>2”效果,思路新颖且有效。 短板:归纳偏置矩阵的构造(公式1)需要预先知道总说话人数量(Ns),这可能导致其在动态或开放世界的说话人识别场景中应用受限,论文未探讨这一关键限制的缓解方案。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 382 words

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

📄 Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing #说话人验证 #语音伪造检测 #自监督学习 #结构化剪枝 #低资源 🔥 8.0/10 | 前25% | #说话人验证 | #自监督学习 | #语音伪造检测 #结构化剪枝 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyi Peng (Brno University of Technology, Speech@FIT) 通讯作者:未说明 作者列表:Junyi Peng¹, Lin Zhang², Jiangyu Han¹, Oldřich Plchot¹, Johan Rohdin¹, Themos Stafylakis³,⁴,⁵, Shuai Wang⁶, Jan Černocký¹ (1. Speech@FIT, Brno University of Technology, Czechia; 2. Johns Hopkins University, USA; 3. Athens University of Economics and Business; 4. Omilia; 5. Archimedes/Athena R.C., Greece; 6. Nanjing University, China) 💡 毒舌点评 亮点在于优雅地将模型剪枝与任务微调合并为单阶段训练,省去了复杂的多步流水线,且在多个基准上效果拔群,甚至能充当正则化提升泛化能力;短板在于对“为什么学出的剪枝模式是这样的”这一现象的理论解释稍显薄弱,更多是现象描述而非机理剖析。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 395 words

ICASSP 2026 - 说话人验证 论文列表

ICASSP 2026 - 说话人验证 共 10 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Cal 8.0分 前25% 🥈 Hybrid Pruning: In-Situ Compression of Self-Supervised Speec 8.0分 前25% 🥉 Distilling Attention Knowledge for Speaker Verification 8.0分 前25% 4. Cross-Architecture Knowledge Distillation of WavLM for Light 8.0分 前25% 5. Triage Knowledge Distillation for Speaker Verification 7.5分 前25% 6. Enhancing Speaker Verification with w2v-BERT 2.0 and Knowled 7.5分 前25% 7. Face-Voice Association with Inductive Bias for Maximum Class 7.0分 前25% 8. Impact of Phonetics on Speaker Identity in Adversarial Voice 7.0分 前50% 9. Curriculum Learning with Contrastive Loss for Lightweight Sp 6.5分 前25% 10. Connecting Layer-Wise Representation of Wavlm with Spectro-T 6.0分 前50% 📋 论文详情 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 ...

2026-04-29 · 更新于 2026-06-12 · 6 min · 1183 words

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者按字母顺序列出,未明确标注第一作者) 通讯作者:未说明(论文中未提供通讯作者信息) 作者列表:Daniyal Kabir Dar(密歇根州立大学计算机科学与工程系)、Qiben Yan(密歇根州立大学计算机科学与工程系)、Li Xiao(密歇根州立大学计算机科学与工程系)、Arun Ross(密歇根州立大学计算机科学与工程系) 💡 毒舌点评 亮点在于将对抗扰动的分析从单纯的转录错误(WER/CER)提升到了语音学特征(元音、辅音)和说话人身份表征的层面,提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架(白盒攻击+评估指标)相对常规,对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限,更多是相关性观察而非因果解释。 🔗 开源详情 代码:论文在结论部分提供了一个GitHub仓库链接(https://dantyalkabir.github.io/icassp-2026-results/),用于提供额外的图示和可视化结果。但未明确说明该仓库是否包含生成对抗样本、运行评估的完整可执行代码。 模型权重:未提及公开攻击生成的对抗样本权重或修改后的说话人模型权重。 数据集:实验使用公开数据集VCTK [31]。 Demo:未提供在线演示。 复现材料:论文详细描述了攻击框架、目标短语设计思路、评估指标,但缺少具体的训练/优化超参数(如迭代次数、步长、c值)、模型配置细节和完整的脚本,复现存在一定难度。 引用的开源项目:引用了DeepSpeech [2]、ECAPA-TDNN [3]等作为基线模型。 📌 核心摘要 本文研究了针对自动语音识别(ASR)系统的对抗性语音攻击,如何同时影响说话人身份验证。论文的核心问题是:这些旨在改变转录文本的微小扰动,是否会破坏用于区分说话人的声学指纹?方法上,作者以DeepSpeech为攻击目标,采用基于梯度的白盒攻击方法生成对抗样本,并创新性地从语音学角度(如元音中心化、辅音替换)分析扰动模式。与以往只关注转录准确率的工作不同,本文的核心贡献在于系统评估了对抗攻击对说话人验证系统(使用ECAPA-TDNN和ResNet模型)的影响,提出了“身份漂移”概念。实验结果显示,在VCTK数据集上,攻击的成功率与目标短语的语音复杂度和长度强相关:短元音丰富的短语(如“yes”)身份漂移很小(TMR=100%, d’≈9.6),而长且包含复杂辅音丛的短语(如pangrams)会导致严重的身份漂移(TMR低至44%, d’降至约3.0)。该研究的实际意义在于揭示了语音对抗攻击的双重危害,提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置,未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构 本文并未提出一个新的模型架构,而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 252 words

Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark

📄 Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark #音频安全 #语音识别 #说话人验证 #信号处理 ✅ 6.5/10 | 前50% | #音频安全 | #信号处理 | #语音识别 #说话人验证 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Shameer Faziludeen(University College Cork, School of Computer Science and Information Technology) 通讯作者:未明确说明(论文提供的是所有作者的邮箱,未指定通讯作者) 作者列表: Shameer Faziludeen(University College Cork) Arun Sankar M. S.(South East Technological University, Department of Electronics and Communication Engineering) Phillip L. De Leon(University of Colorado Denver, Department of Electrical Engineering) Utz Roedig(University College Cork) 💡 毒舌点评 亮点:系统架构设计巧妙,将数字签名、水印和语音处理技术解耦又紧密结合,实现了“内容签名”而非“信号签名”的理念,概念上清晰且实用。 短板:实验部分过于依赖单一数据集(TIMIT)且规模较小,缺乏对抗真实世界复杂攻击(如高质量语音克隆替换)的评估,结论的普适性存疑;同时,系统各环节的容错与性能边界分析不足。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 335 words

Target Speaker Anonymization in Multi-Speaker Recordings

📄 Target Speaker Anonymization in Multi-Speaker Recordings #语音匿名化 #语音转换 #说话人分离 #说话人验证 #基准测试 ✅ 7.6/10 | 前50% | #语音匿名化 | #语音转换 | #说话人分离 #说话人验证 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Natalia Tomashenko(Université de Lorraine, CNRS, Inria, Loria) 通讯作者:未说明 作者列表:Natalia Tomashenko(Université de Lorraine, CNRS, Inria, Loria)、Junichi Yamagishi(National Institute of Informatics)、Xin Wang(National Institute of Informatics)、Yun Liu(National Institute of Informatics)、Emmanuel Vincent(Université de Lorraine, CNRS, Inria, Loria) 💡 毒舌点评 亮点在于清晰地定义了多说话人场景下目标匿名化这一重要且实际的问题,并初步建立了一个包含“提取-匿名化-重组”的端到端评估框架,其对评估指标的讨论(如tcpWER、DER)比单纯追求更低EER更具工程指导意义。短板在于方法上本质上是将已有的TSE和匿名化模型进行管道式拼接,缺乏针对该联合任务的深度融合与创新,且实验揭示了管道中误差传递导致最终实用性(tcpWER)显著下降的核心矛盾,但论文并未提出根本性的解决方案。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 280 words

Triage Knowledge Distillation for Speaker Verification

📄 Triage Knowledge Distillation for Speaker Verification #说话人验证 #知识蒸馏 #模型压缩 #课程学习 #语音 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #模型压缩 #课程学习 学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Ju-ho Kim(Samsung Research, AI Solution Team) 通讯作者:未说明 作者列表:Ju-ho Kim(Samsung Research, AI Solution Team)、Youngmoon Jung(Samsung Research, AI Solution Team)、Joon-Young Yang(Samsung Research, AI Solution Team)、Jaeyoung Roh(Samsung Research, AI Solution Team)、Chang Woo Han(Samsung Research, AI Solution Team)、Hoon-Young Cho(Samsung Research, AI Solution Team) 💡 毒舌点评 亮点:TRKD方法设计直观有效,将“评估-优先-关注”的分诊思想系统地应用于知识蒸馏,并通过动态τ课程调度巧妙地平衡了训练稳定性与后期聚焦难度,实验结果在各种架构组合上的一致性提升很有说服力。短板:论文对方法的局限性探讨不足,例如,累积概率阈值τ的最终值(0.05)和调度曲线(γ=0.001)是经验选择,其对不同数据集和任务规模的敏感性与最优性缺乏理论分析或更广泛的实验验证。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 329 words

UNet-Based Fusion and Exponential Moving Average Adaptation for Noise-Robust Speaker Recognition

📄 UNet-Based Fusion and Exponential Moving Average Adaptation for Noise-Robust Speaker Recognition #说话人验证 #说话人识别 #迁移学习 #语音增强 #鲁棒性 ✅ 7.5/10 | 前25% | #说话人验证 | #迁移学习 | #说话人识别 #语音增强 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chong-Xin Gan (香港理工大学电气与电子工程系) 通讯作者:未说明 作者列表: Chong-Xin Gan (香港理工大学) Peter Bell (爱丁堡大学语音技术研究中心) Man-Wai Mak (香港理工大学) Zhe Li (香港大学) Zezhong Jin (未说明) Zilong Huang (未说明) Kong Aik Lee (未说明) 💡 毒舌点评 这篇论文的亮点在于思路非常清晰且务实:它敏锐地指出了现有“联合训练”范式(从头训练SE模块)的痛点——丢掉了原始带噪语音里的有用信息,且浪费了强大预训练SE模型的能力。于是,它提出了一个“拿来主义”的解决方案:用现成的顶级SE模型先处理,再用一个UNet去“缝合”原始和增强后的特征,并用EMA这个平滑的策略去微调说话人编码器,整套操作逻辑自洽且有效。短板在于,它更像是一个精心设计的“工程集成”方案,核心的UNet融合部分创新深度有限(线性插值的非线性升级),且文中并未公开关键代码和模型,让读者对其“可复现性”打上一个问号。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 348 words