说话人验证

Content Anonymization for Privacy in Long-Form Audio

📄 Content Anonymization for Privacy in Long-Form Audio #语音匿名化 #大语言模型 #说话人验证 #端到端 ✅ 7.5/10 | 前25% | #语音匿名化 | #大语言模型 | #说话人验证 #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cristina Aggazzotti（约翰霍普金斯大学人类语言技术卓越中心）通讯作者：未说明作者列表：Cristina Aggazzotti（约翰霍普金斯大学人类语言技术卓越中心，电子邮箱 caggazz1@jhu.edu），Ashi Garg（约翰霍普金斯大学人类语言技术卓越中心，电子邮箱 agarg22@jhu.edu），Zexin Cai（约翰霍普金斯大学计算机系，电子邮箱 zcai21@jhu.edu），Nicholas Andrews（约翰霍普金斯大学人类语言技术卓越中心及计算机系，电子邮箱 noa@jhu.edu） 💡 毒舌点评本文敏锐地指出了当前语音匿名化研究在长音频场景下的“皇帝新衣”——只藏声音不改说话方式等于白藏，并提出了用LLM改写文本来釜底抽薪的思路，是这个小众但重要的领域一次扎实的“问题-方案”闭环。不过，文中仅拿出了几个现成LLM模型进行“平A”，并未深入探究文本风格改写的具体机制与边界（比如对口语化、情感色彩的保持能力），在实验深度上略显保守。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/caggazzotti/long-form-speech-anonymization 模型权重：论文中使用的模型均为开源模型或公开API： ASR：Whisper-medium（开源） TTS：XTTS（开源） LLM：Gemma-3-4B（开源）， GPT-4o-mini 和 GPT-5（通过OpenAI API，但论文提及了其系统卡）说话人验证：WavLM-Base（开源）作者归属：Sentence LUAR (SLUAR)（开源，论文提供了HuggingFace链接）检测器：SSL-AASIST 和 Binoculars（均为开源）数据集：使用了公开语料库 Fisher Speech Corpus 和 VoxCeleb2，未提及如何获取或划分评估集的具体信息。 Demo：未提及。复现材料：提供了代码仓库，其中应包含使用提示词和模型进行推断的脚本。论文中描述了实验设置（如Fisher语料库的“hard”评估设定），但未提供超参数配置文件或训练日志。论文中引用的开源项目：Whisper, XTTS, Gemma, WavLM, SLUAR, Binoculars, SSL-AASIST, Sentence-BERT（用于语义相似度计算）。 📌 核心摘要问题：现有语音匿名化技术（如VoicePrivacy Challenge）主要针对短音频，仅通过声学处理隐藏说话人身份。然而在长音频（如电话、会议）中，同一说话人的多条语音所展现出的词汇、句式等语言风格会成为强大的生物特征旁信道，使攻击者即使在声音被完全转换后仍能重新识别说话人。方法核心：提出在自动语音识别（ASR）和语音合成（TTS）的级联管道中，引入基于大语言模型（LLM）的上下文文本改写步骤。该方法不是逐句改写，而是采用滑动窗口，结合前文语境对多条转录文本进行联合改写，旨在消除说话人特有的语言风格，同时保留原始语义。创新性：这是首次系统性地评估LLM文本改写作为防御“基于内容的攻击”的有效性的研究。与现有仅处理声学信号或简单掩盖PII的方法不同，该方案直接从攻击者依赖的语言内容特征入手。主要结果：实验在Fisher电话对话语料库上进行。结果显示，仅进行语音匿名化时，内容攻击的等错误率（EER）随可用语音数量增加而显著下降（攻击更准），证明语言内容泄露了身份。而采用所提的内容匿名化（特别是上下文联合改写）后，内容攻击的EER能稳定在50%左右（接近随机猜测）。具体而言，使用GPT-5和Gemma-3-4B模型进行段改写，对内容攻击的防御效果优于逐句改写（GPT-4o-mini）。语义相似度测试（如DTW）表明改写后内容得以保留。合成后的语音自然度（UTMOS）甚至高于原始录音。实际意义：为长音频（如法庭取证、医疗问诊、商业会议）的隐私保护提供了新思路和技术路线，建议在ASR-TTS匿名化流程中集成内容改写步骤。主要局限性：依赖ASR-TTS级联管道，ASR错误可能传播；文本改写可能丢失细微语义或风格；在半知情攻击者场景下的有效性有待验证。 🏗️ 模型架构论文提出的方法不是一个单一模型，而是一个处理流程（Pipeline），其核心是在传统的ASR-TTS语音匿名化管道中，插入一个基于LLM的文本匿名化模块。 ...

Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification

📄 Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification #说话人验证 #知识蒸馏 #自监督学习 #模型压缩 #语音表示学习 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #自监督学习 #模型压缩学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 8.0 | 置信度高 👥 作者与机构第一作者：Jungwoo Heo (University of Seoul, Republic of Korea) 通讯作者：Ha-Jin Yu (University of Seoul, Republic of Korea) 作者列表：Jungwoo Heo (University of Seoul, Republic of Korea)、Hyun-seo Shin (University of Seoul, Republic of Korea)、Chan-yeong Lim (University of Seoul, Republic of Korea)、Kyowon Koo (University of Seoul, Republic of Korea)、Seung-bin Kim (University of Seoul, Republic of Korea)、Jisoo Son (University of Seoul, Republic of Korea)、Kyung Wha Kim (Supreme Prosecutors’ Office Republic of Korea)、Ha-Jin Yu (University of Seoul, Republic of Korea) 💡 毒舌点评这篇论文精准地切中了当前自监督语音模型“大而不能用”的痛点，其提出的任务引导学习（TGL）和代理对齐蒸馏（PAD）组合拳，确实为异构架构间的知识传递提供了系统化的解决方案，在VoxCeleb和VoxSRC等标准基准上取得了令人印象深刻的性能提升。然而，实验部分主要围绕其自身方法的变体展开，与当前最前沿的、同样专注于轻量化或高效说话人验证的最新方法（如2025年的SEED, LAP等）的横向对比深度稍显不足，使得其“最佳”地位的论证链条不够完整。 ...

Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing

📄 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing #说话人验证 #对比学习 #音频安全 #跨领域 #领域适应 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yitian Ding（国际关系学院，北京，中国）通讯作者：Yansen Zhou（国际关系学院，北京，中国）论文中标注为通讯作者作者列表：Yitian Ding（国际关系学院）、Shengchen Li（西交利物浦大学，苏州，中国）、Yansen Zhou（国际关系学院） 💡 毒舌点评论文的亮点在于将“跨域对齐”、“类内紧致”与“置信度校准”三个目标巧妙地融为一个统一的训练框架（ACC Loss），并配合评估时的动态阈值校准（Centered AS-Norm），形成了一套完整的解决方案，其设计思路和消融实验都做得相当清晰。但略显遗憾的是，论文声称方法“即插即用、数据高效”，却未能开源代码或提供可直接运行的完整复现材料，这限制了学术界对其进行快速验证和在此基础上改进的可能性。 🔗 开源详情代码：论文中未提及代码链接。文中提到“代码在PyTorch中实现”，但未提供公开仓库地址。模型权重：未提及是否公开模型权重。数据集：使用了公开数据集LibriSpeech和VoxCeleb，以及SSTC 2024挑战赛数据集。论文中未说明SSTC 2024数据集的获取方式。 Demo：未提及在线演示。复现材料：提供了部分关键实现细节（如特征提取、网络结构、损失函数、训练超参数、硬件环境），但不足以完全独立复现，缺少完整的代码和配置文件。引用的开源项目：论文引用了MFA-Conformer[21]、LibriSpeech[23]、VoxCeleb[24,25]、MUSAN[26]、RIR数据[27]等相关开源工作。 📌 核心摘要本文针对语音转换（VC）对自动说话人验证（ASV）构成的安全威胁，研究了“源说话人追踪（SST）”任务，即从转换后的语音中识别原始说话人。其核心问题是转换语音与原始语音之间存在领域偏移，且转换语音内部的说话人特征呈现多峰结构，导致特征分布不稳定和固定阈值失效。为此，论文提出了一种“跨域对比学习与动态阈值校准”的统一范式。在训练阶段，提出联合优化ACC损失函数，它结合了对齐损失（InfoNCE，用于跨域对齐）、紧致性损失（IS-CDR，用于减少类内方差）和置信度损失（质量回归，用于质量感知校准）。在评估阶段，采用Centered AS-Norm（全局中心化+自适应归一化）进行分布感知的动态评分校准。在SSTC 2024评测基准上，所提系统在16个测试集上的平均等错误率（EER）为16.509%，超越了挑战赛冠军系统（16.788%），并将官方基线（20.613%）降低了4.104个百分点。消融实验证明，所提出的训练损失和评估后处理机制对性能提升均有显著贡献。该方法的主要贡献在于提供了一个完整的训练-评估闭环，以增强SST任务的跨域泛化能力和分数可校准性。其局限性在于评估场景局限于单一基准，且未公开代码和模型。 ...

Curriculum Learning with Contrastive Loss for Lightweight Speaker Verification

📄 Curriculum Learning with Contrastive Loss for Lightweight Speaker Verification #说话人验证 #对比学习 #课程学习 #知识蒸馏 ✅ 6.5/10 | 前25% | #说话人验证 | #对比学习 #课程学习 | #对比学习 #课程学习学术质量 7.0/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jin Li（香港理工大学电机工程系）通讯作者：未说明作者列表：Jin Li（香港理工大学电机工程系；布尔诺理工大学Speech@FIT）、Man-Wai Mak（香港理工大学电机工程系）、Johan Rohdin（布尔诺理工大学Speech@FIT）、Oldřich Plchot（布尔诺理工大学Speech@FIT） 💡 毒舌点评亮点：将课程学习思想精巧地应用于对比学习的负样本选择，并通过一个“教师网络”来量化和迁移“难度”，这一设计既直观又有效，避免了手动筛选困难负样本的武断。短板：论文的实验部分略显“安全牌”，主要验证了在VoxCeleb单一数据集上的有效性，且基线模型（如ECAPA-TDNN的轻量化版本）未得到充分讨论，使得“state-of-the-art”的宣称需要读者自行查阅更多文献才能完全确认。 🔗 开源详情代码：论文明确提供了代码仓库链接：GitHub (https://github.com/happyjin/CurriNegAMS)。模型权重：论文中未提及公开预训练模型权重。数据集：实验使用公开的VoxCeleb1和VoxCeleb2数据集。 Demo：未提供在线演示。复现材料：论文详细说明了训练细节，包括特征提取（40维梅尔滤波器组）、数据增强（MUSAN， RIR）、优化器设置（Adam， lr=0.001， 5%/16epochs decay）、批量大小（200）、损失函数超参数（τ=0.1, m=0.3, s=30）以及节奏函数的选择。这些信息为复现提供了必要基础。引用的开源项目：论文引用并使用了Fast ResNet34的官方实现（https://github.com/clovaai/voxceleb_trainer）。 📌 核心摘要解决的问题：在资源受限的移动设备上部署说话人验证系统时，需要在模型轻量化（低参数量、低计算量）与高精度之间取得平衡。现有轻量级模型性能仍有提升空间，而标准对比学习在训练中对负样本的选择缺乏策略。 ...

Distilling Attention Knowledge for Speaker Verification

📄 Distilling Attention Knowledge for Speaker Verification #说话人验证 #知识蒸馏 #注意力机制 #语音预训练模型 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #注意力机制 #语音预训练模型学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度高 👥 作者与机构第一作者： Zezhong Jin（香港理工大学）通讯作者：未明确说明（从作者列表和单位推断，可能为Man-Wai Mak或Kong Aik Lee，但论文未明确标注）作者列表： Zezhong Jin¹, Shujie Liu², Zhe Li³, Chong-Xin Gan¹, Zilong Huang¹, Man-Wai Mak¹, Kong Aik Lee¹ 香港理工大学 (The Hong Kong Polytechnic University) 微软亚洲研究院 (Microsoft Research Asia) 香港大学 (The University of Hong Kong) 💡 毒舌点评亮点：论文巧妙地将主流ASV模型（ECAPA-TDNN）中已有的SE模块和注意力池化层作为“注意力图”的来源，无需额外设计复杂的注意力机制，这种“就地取材”的工程思维很聪明，也让方法更具通用性和可移植性。短板：开源信息严重缺失，对于一篇强调“方法有效性”和“复现价值”的会议论文而言，没有代码和模型权重几乎是“反向操作”，极大削弱了其对社区的实际贡献度。 ...

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation Guided Structured Pruning

📄 Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation Guided Structured Pruning #说话人验证 #预训练 #知识蒸馏 #模型压缩 #语音大模型 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #预训练 #模型压缩学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ze Li（武汉大学计算机科学学院，苏州多模态智能系统市重点实验室）通讯作者：Ming Li（武汉大学人工智能学院，昆山杜克大学，苏州多模态智能系统市重点实验室）作者列表：Ze Li（武汉大学计算机科学学院，苏州多模态智能系统市重点实验室）、Ming Cheng（武汉大学计算机科学学院，苏州多模态智能系统市重点实验室）、Ming Li（武汉大学人工智能学院，昆山杜克大学，苏州多模态智能系统市重点实验室） 💡 毒舌点评这篇论文是一次漂亮的大模型“落地”工程实践，成功地将w2v-BERT 2.0这个语言学预训练巨兽改造为说话人验证的利器，并达到了SOTA性能，同时不忘通过剪枝为实际部署铺路，展现了完整的研究闭环。然而，其核心创新更偏向于“技术选型与系统集成”的优秀范例，而非底层算法的突破，更像是用现有最好的工具（MFA， LoRA，结构化剪枝）精心组装了一台高性能机器，虽然结果亮眼，但缺少让同行惊呼“原来可以这样”的独创性构思。 🔗 开源详情代码：提供代码仓库链接：https://github.com/ZXHY-82/w2v-BERT-2.0_SV。模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：实验所用数据集（VoxCeleb, VoxBlink2, CN-Celeb, MUSAN, RIR Noise）均为公开数据集，但论文未提供数据集的获取指南或处理脚本。 Demo：未提及在线演示。复现材料：论文给出了详细的模型架构描述（包括各模块维度）、三阶段训练策略（含学习率、优化器、调度器、损失函数参数）、剪枝细节（损失函数、L0建模参数）等，为复现提供了核心框架。部分训练超参数（如batch size）和硬件信息缺失。引用的开源项目：论文中引用的开源项目包括ECAPA-TDNN、MFA-Conformer、LoRA等，表明其实验��于这些公开的架构和代码思想。 📌 核心摘要问题：现有说话人验证（SV）系统面临标注数据不足与模型复杂度之间的矛盾，且大规模预训练模型（PTM）的参数量过大，不利于实际部署。核心方法：首次将基于Conformer架构、在4.5百万小时多语言数据上自监督训练的w2v-BERT 2.0 PTM用于SV任务。采用多尺度特征聚合（MFA）结构结合Layer Adapter处理PTM多层输出，并使用LoRA进行高效微调。为降低部署成本，应用知识蒸馏指导的结构化剪枝技术压缩PTM。创新点：将w2v-BERT 2.0引入SV；提出“MFA + Layer Adapter + LoRA”的高效适配框架；实现了基于知识蒸馏的结构化剪枝，大幅压缩模型且性能损失极小。主要结果：在Vox1-O测试集上达到0.12% EER，在Vox1-H上达到0.55% EER，超越了表1中列出的多种前沿方法。通过剪枝将模型参数减少约80%，在Vox1-O上的EER仅从0.14%增加至0.18%，性能退化仅0.04%。实际意义：为使用超大型预训练模型解决SV问题提供了有效方案，并展示了如何将模型压缩至实际可用的规模，平衡了性能与效率。局限性：尽管性能优越，但模型初始参数量巨大（约580M），剪枝后的模型（124M）依然较传统SV模型庞大。研究未深入探讨w2v-BERT 2.0中Conformer架构相比Transformer在SV任务上的具体优势机制，且未提供在其他更具挑战性场景（如极端噪声、跨语言）下的全面评估。 🏗️ 模型架构论文的整体架构旨在将大规模预训练模型w2v-BERT 2.0适配到说话人验证任务，其核心流程如下： ...

Face-Voice Association with Inductive Bias for Maximum Class Separation

📄 Face-Voice Association with Inductive Bias for Maximum Class Separation #说话人验证 #跨模态 #归纳偏置 #对比学习 #基准测试 ✅ 7.0/10 | 前25% | #说话人验证 | #归纳偏置 | #跨模态 #对比学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未按顺序标注第一作者，但根据惯例，Marta Moscati排在首位）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Marta Moscati¹, Oleksandr Kats¹, Mubashir Noman², Muhammad Zaigham Zaheer², Yufang Hou³, Markus Schedl¹’⁴, Shah Nawaz¹ ¹ Johannes Kepler University Linz, Austria ² MBZUAI, UAE ³ IT:U Interdisciplinary Transformation University Austria ⁴ Linz Institute of Technology, Austria 💡 毒舌点评亮点：论文巧妙地将一个原本用于单模态分类任务的“最大类分离归纳偏置”技术迁移并适配到了多模态的人脸-语音关联领域，且通过扎实的消融实验证明了它与正交约束损失结合后的“1+1>2”效果，思路新颖且有效。短板：归纳偏置矩阵的构造（公式1）需要预先知道总说话人数量（Ns），这可能导致其在动态或开放世界的说话人识别场景中应用受限，论文未探讨这一关键限制的缓解方案。 ...

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

📄 Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing #说话人验证 #语音伪造检测 #自监督学习 #结构化剪枝 #低资源 🔥 8.0/10 | 前25% | #说话人验证 | #自监督学习 | #语音伪造检测 #结构化剪枝学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junyi Peng (Brno University of Technology, Speech@FIT) 通讯作者：未说明作者列表：Junyi Peng¹, Lin Zhang², Jiangyu Han¹, Oldřich Plchot¹, Johan Rohdin¹, Themos Stafylakis³,⁴,⁵, Shuai Wang⁶, Jan Černocký¹ (1. Speech@FIT, Brno University of Technology, Czechia; 2. Johns Hopkins University, USA; 3. Athens University of Economics and Business; 4. Omilia; 5. Archimedes/Athena R.C., Greece; 6. Nanjing University, China) 💡 毒舌点评亮点在于优雅地将模型剪枝与任务微调合并为单阶段训练，省去了复杂的多步流水线，且在多个基准上效果拔群，甚至能充当正则化提升泛化能力；短板在于对“为什么学出的剪枝模式是这样的”这一现象的理论解释稍显薄弱，更多是现象描述而非机理剖析。 ...

ICASSP 2026 - 说话人验证论文列表

ICASSP 2026 - 说话人验证共 10 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Cal 8.0分前25% 🥈 Hybrid Pruning: In-Situ Compression of Self-Supervised Speec 8.0分前25% 🥉 Distilling Attention Knowledge for Speaker Verification 8.0分前25% 4. Cross-Architecture Knowledge Distillation of WavLM for Light 8.0分前25% 5. Triage Knowledge Distillation for Speaker Verification 7.5分前25% 6. Enhancing Speaker Verification with w2v-BERT 2.0 and Knowled 7.5分前25% 7. Face-Voice Association with Inductive Bias for Maximum Class 7.0分前25% 8. Impact of Phonetics on Speaker Identity in Adversarial Voice 7.0分前50% 9. Curriculum Learning with Contrastive Loss for Lightweight Sp 6.5分前25% 10. Connecting Layer-Wise Representation of Wavlm with Spectro-T 6.0分前50% 📋 论文详情 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 ...

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文中作者按字母顺序列出，未明确标注第一作者）通讯作者：未说明（论文中未提供通讯作者信息）作者列表：Daniyal Kabir Dar（密歇根州立大学计算机科学与工程系）、Qiben Yan（密歇根州立大学计算机科学与工程系）、Li Xiao（密歇根州立大学计算机科学与工程系）、Arun Ross（密歇根州立大学计算机科学与工程系） 💡 毒舌点评亮点在于将对抗扰动的分析从单纯的转录错误（WER/CER）提升到了语音学特征（元音、辅音）和说话人身份表征的层面，提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架（白盒攻击+评估指标）相对常规，对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限，更多是相关性观察而非因果解释。 🔗 开源详情代码：论文在结论部分提供了一个GitHub仓库链接（https://dantyalkabir.github.io/icassp-2026-results/），用于提供额外的图示和可视化结果。但未明确说明该仓库是否包含生成对抗样本、运行评估的完整可执行代码。模型权重：未提及公开攻击生成的对抗样本权重或修改后的说话人模型权重。数据集：实验使用公开数据集VCTK [31]。 Demo：未提供在线演示。复现材料：论文详细描述了攻击框架、目标短语设计思路、评估指标，但缺少具体的训练/优化超参数（如迭代次数、步长、c值）、模型配置细节和完整的脚本，复现存在一定难度。引用的开源项目：引用了DeepSpeech [2]、ECAPA-TDNN [3]等作为基线模型。 📌 核心摘要本文研究了针对自动语音识别（ASR）系统的对抗性语音攻击，如何同时影响说话人身份验证。论文的核心问题是：这些旨在改变转录文本的微小扰动，是否会破坏用于区分说话人的声学指纹？方法上，作者以DeepSpeech为攻击目标，采用基于梯度的白盒攻击方法生成对抗样本，并创新性地从语音学角度（如元音中心化、辅音替换）分析扰动模式。与以往只关注转录准确率的工作不同，本文的核心贡献在于系统评估了对抗攻击对说话人验证系统（使用ECAPA-TDNN和ResNet模型）的影响，提出了“身份漂移”概念。实验结果显示，在VCTK数据集上，攻击的成功率与目标短语的语音复杂度和长度强相关：短元音丰富的短语（如“yes”）身份漂移很小（TMR=100%， d’≈9.6），而长且包含复杂辅音丛的短语（如pangrams）会导致严重的身份漂移（TMR低至44%， d’降至约3.0）。该研究的实际意义在于揭示了语音对抗攻击的双重危害，提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置，未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构本文并未提出一个新的模型架构，而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 ...