Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者按字母顺序列出,未明确标注第一作者) 通讯作者:未说明(论文中未提供通讯作者信息) 作者列表:Daniyal Kabir Dar(密歇根州立大学计算机科学与工程系)、Qiben Yan(密歇根州立大学计算机科学与工程系)、Li Xiao(密歇根州立大学计算机科学与工程系)、Arun Ross(密歇根州立大学计算机科学与工程系) 💡 毒舌点评 亮点在于将对抗扰动的分析从单纯的转录错误(WER/CER)提升到了语音学特征(元音、辅音)和说话人身份表征的层面,提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架(白盒攻击+评估指标)相对常规,对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限,更多是相关性观察而非因果解释。 📌 核心摘要 本文研究了针对自动语音识别(ASR)系统的对抗性语音攻击,如何同时影响说话人身份验证。论文的核心问题是:这些旨在改变转录文本的微小扰动,是否会破坏用于区分说话人的声学指纹?方法上,作者以DeepSpeech为攻击目标,采用基于梯度的白盒攻击方法生成对抗样本,并创新性地从语音学角度(如元音中心化、辅音替换)分析扰动模式。与以往只关注转录准确率的工作不同,本文的核心贡献在于系统评估了对抗攻击对说话人验证系统(使用ECAPA-TDNN和ResNet模型)的影响,提出了“身份漂移”概念。实验结果显示,在VCTK数据集上,攻击的成功率与目标短语的语音复杂度和长度强相关:短元音丰富的短语(如“yes”)身份漂移很小(TMR=100%, d’≈9.6),而长且包含复杂辅音丛的短语(如pangrams)会导致严重的身份漂移(TMR低至44%, d’降至约3.0)。该研究的实际意义在于揭示了语音对抗攻击的双重危害,提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置,未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构 本文并未提出一个新的模型架构,而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 攻击流程:输入为干净音频波形x。攻击算法(基于梯度迭代优化)生成扰动δ,满足∥δ∥较小。输出为对抗音频x' = x + δ。x'在感知上与x相似,但会使ASR模型输出目标文本y_t。 评估流程: ASR评估:将x'输入DeepSpeech模型,得到对抗转录,与y_t对比。 说话人验证评估:将x和x'分别输入说话人嵌入提取器(ECAPA-TDNN或ResNet),得到嵌入f(x)和f(x')。计算两者余弦相似度,下降即表明“身份漂移”。同时,使用验证集评估在攻击后系统的区分能力(TMR@0.1%FMR和d’指标)。 关键组件: 目标ASR模型:DeepSpeech(基于CTC损失的端到端模型)。这是攻击的白盒目标。 攻击优化器:采用Carlini & Wagner式的迭代优化,最小化∥δ∥₂² + c · CTC-Loss(x + δ, y_t)。 说话人嵌入模型:ECAPA-TDNN和ResNet-based模型,用于提取说话人身份表征。 语音学分析:研究者手动或半自动分析对抗样本在音素级别产生的混淆模式(如元音、辅音的替换)。 💡 核心创新点 引入“身份漂移”概念来量化对抗攻击对说话人验证的影响:以往研究多孤立地看待ASR攻击或说话人验证攻击。本文明确将两者联系起来,指出针对ASR的扰动会附带地破坏说话人身份信息,并提出了系统的量化评估方法(d’, TMR)。 从语音学视角系统分析对抗扰动的模式:超越了简单的扰动幅度(SNR)度量,深入到语音的基本单位(音素),分析了扰动如何导致系统性的语音混淆(如元音中心化、摩擦音不稳定),并建立了语音学结构(如短语长度、音素类型)与攻击效果(身份漂移程度)之间的关联。 设计并评估了覆盖广泛语音现象的目标短语集:为了系统研究语音结构的影响,作者精心设计了16个目标短语(从单音节词到复杂的pangram),确保覆盖不同的元音、辅音、音节结构和重音模式,使实验分析更具说服力。 🔬 细节详述 训练数据: 数据集:VCTK Corpus [31],包含109位母语为英语的说话人的录音,具有多样化的口音。 数据使用:为每位说话者选择干净的源音频(未指定具体选择标准),生成109(说话者)× 16(目标短语)个源-目标攻击对。 预处理/增强:未在论文中详细说明。 损失函数: 攻击损失:L = ∥δ∥₂² + c · CTC-Loss(x + δ, y_t)。其中c是平衡系数,用于控制扰动大小与攻击成功率,具体值未说明。 训练策略: 攻击是优化过程,而非模型训练。采用迭代梯度方法进行优化直至收敛。优化器具体参数(如学习率、步长)未说明。 关键超参数: 扰动幅度约束:x + δ ∈ [-M, M],其中M为最大音频振幅,具体值未说明。 扭曲度量:使用信噪比(SNR, dB)来确保扰动不可感知。 训练硬件:在GPU上进行,具体型号和数量未说明。 推理/攻击细节:对每个源-目标对独立生成对抗样本。说话人验证评估使用标准协议,报告TMR@0.1%FMR和判别指数d’ [30]。 评估指标: TMR@0.1%FMR:在0.1%错误接受率下的真实匹配率。 d’(判别指数):衡量真实和冒名得分分布的分离度,值越小表示区分能力越差,身份漂移越严重。 SNR(dB):衡量扰动强度。 📊 实验结果 主要评估结果如下表所示(节选自Table I): ...

2026-04-29

Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark

📄 Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark #音频安全 #语音识别 #说话人验证 #信号处理 ✅ 6.5/10 | 前50% | #音频安全 | #信号处理 | #语音识别 #说话人验证 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Shameer Faziludeen(University College Cork, School of Computer Science and Information Technology) 通讯作者:未明确说明(论文提供的是所有作者的邮箱,未指定通讯作者) 作者列表: Shameer Faziludeen(University College Cork) Arun Sankar M. S.(South East Technological University, Department of Electronics and Communication Engineering) Phillip L. De Leon(University of Colorado Denver, Department of Electrical Engineering) Utz Roedig(University College Cork) 💡 毒舌点评 亮点:系统架构设计巧妙,将数字签名、水印和语音处理技术解耦又紧密结合,实现了“内容签名”而非“信号签名”的理念,概念上清晰且实用。 短板:实验部分过于依赖单一数据集(TIMIT)且规模较小,缺乏对抗真实世界复杂攻击(如高质量语音克隆替换)的评估,结论的普适性存疑;同时,系统各环节的容错与性能边界分析不足。 ...

2026-04-29

Target Speaker Anonymization in Multi-Speaker Recordings

📄 Target Speaker Anonymization in Multi-Speaker Recordings #语音匿名化 #语音转换 #说话人分离 #说话人验证 #基准测试 ✅ 7.6/10 | 前50% | #语音匿名化 | #语音转换 | #说话人分离 #说话人验证 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Natalia Tomashenko(Université de Lorraine, CNRS, Inria, Loria) 通讯作者:未说明 作者列表:Natalia Tomashenko(Université de Lorraine, CNRS, Inria, Loria)、Junichi Yamagishi(National Institute of Informatics)、Xin Wang(National Institute of Informatics)、Yun Liu(National Institute of Informatics)、Emmanuel Vincent(Université de Lorraine, CNRS, Inria, Loria) 💡 毒舌点评 亮点在于清晰地定义了多说话人场景下目标匿名化这一重要且实际的问题,并初步建立了一个包含“提取-匿名化-重组”的端到端评估框架,其对评估指标的讨论(如tcpWER、DER)比单纯追求更低EER更具工程指导意义。短板在于方法上本质上是将已有的TSE和匿名化模型进行管道式拼接,缺乏针对该联合任务的深度融合与创新,且实验揭示了管道中误差传递导致最终实用性(tcpWER)显著下降的核心矛盾,但论文并未提出根本性的解决方案。 ...

2026-04-29

Triage Knowledge Distillation for Speaker Verification

📄 Triage Knowledge Distillation for Speaker Verification #说话人验证 #知识蒸馏 #模型压缩 #课程学习 #语音 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #模型压缩 #课程学习 学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Ju-ho Kim(Samsung Research, AI Solution Team) 通讯作者:未说明 作者列表:Ju-ho Kim(Samsung Research, AI Solution Team)、Youngmoon Jung(Samsung Research, AI Solution Team)、Joon-Young Yang(Samsung Research, AI Solution Team)、Jaeyoung Roh(Samsung Research, AI Solution Team)、Chang Woo Han(Samsung Research, AI Solution Team)、Hoon-Young Cho(Samsung Research, AI Solution Team) 💡 毒舌点评 亮点:TRKD方法设计直观有效,将“评估-优先-关注”的分诊思想系统地应用于知识蒸馏,并通过动态τ课程调度巧妙地平衡了训练稳定性与后期聚焦难度,实验结果在各种架构组合上的一致性提升很有说服力。短板:论文对方法的局限性探讨不足,例如,累积概率阈值τ的最终值(0.05)和调度曲线(γ=0.001)是经验选择,其对不同数据集和任务规模的敏感性与最优性缺乏理论分析或更广泛的实验验证。 ...

2026-04-29

UNet-Based Fusion and Exponential Moving Average Adaptation for Noise-Robust Speaker Recognition

📄 UNet-Based Fusion and Exponential Moving Average Adaptation for Noise-Robust Speaker Recognition #说话人验证 #说话人识别 #迁移学习 #语音增强 #鲁棒性 ✅ 7.5/10 | 前25% | #说话人验证 | #迁移学习 | #说话人识别 #语音增强 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chong-Xin Gan (香港理工大学电气与电子工程系) 通讯作者:未说明 作者列表: Chong-Xin Gan (香港理工大学) Peter Bell (爱丁堡大学语音技术研究中心) Man-Wai Mak (香港理工大学) Zhe Li (香港大学) Zezhong Jin (未说明) Zilong Huang (未说明) Kong Aik Lee (未说明) 💡 毒舌点评 这篇论文的亮点在于思路非常清晰且务实:它敏锐地指出了现有“联合训练”范式(从头训练SE模块)的痛点——丢掉了原始带噪语音里的有用信息,且浪费了强大预训练SE模型的能力。于是,它提出了一个“拿来主义”的解决方案:用现成的顶级SE模型先处理,再用一个UNet去“缝合”原始和增强后的特征,并用EMA这个平滑的策略去微调说话人编码器,整套操作逻辑自洽且有效。短板在于,它更像是一个精心设计的“工程集成”方案,核心的UNet融合部分创新深度有限(线性插值的非线性升级),且文中并未公开关键代码和模型,让读者对其“可复现性”打上一个问号。 ...

2026-04-29

Enhancing Speaker Verification with Whispered Speech via Post-Processing

📄 Enhancing Speaker Verification with Whispered Speech via Post-Processing #说话人验证 #领域适应 #数据增强 #鲁棒性 ✅ 6.5/10 | 前50% | #说话人验证 | #领域适应 | #数据增强 #鲁棒性 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Magdalena Gołębiowska(波兰弗罗茨瓦夫科技大学人工智能系) 通讯作者:Piotr Syga(波兰弗罗茨瓦夫科技大学人工智能系) 作者列表: Magdalena Gołębiowska(波兰弗罗茨瓦夫科技大学人工智能系) Piotr Syga(波兰弗罗茨瓦夫科技大学人工智能系) 💡 毒舌点评 亮点:论文不仅提出了一种有效的后处理方法,还首次系统性地评估了多种当前SOTA说话人验证模型(包括ECAPA2、ReDimNet系列)在耳语语音上的性能,并分析了噪声对耳语语音验证的额外影响,提供了宝贵的实证数据。短板:核心方法(编码器-解码器微调)的创新性较为有限,且实验仅依赖一个规模不大的标准数据集(CHAINS),在更广泛、更真实的场景下的泛化能力存疑;此外,噪声实验部分虽然有趣,但并未将所提模型应用于噪声场景,结论的实践指导意义打了折扣。 📌 核心摘要 问题:耳语语音因缺乏声带振动,其声学特征与正常语音差异显著,导致现有的说话人验证系统性能严重下降。这在用户为保护隐私而低语、或因疾病无法正常发声等实际场景中构成挑战。 方法核心:在预训练的说话人验证骨干网络(ReDimNet-B6)之上,添加一个轻量级的编码器-解码器结构,并引入基于余弦相似度的说话人分类头。通过联合优化三元组损失和余弦Softmax损失,微调整个网络,旨在将耳语语音的嵌入表示“转换”为更接近正常语音的表示,同时保持说话人身份信息。 创新点:与以往依赖特征工程或在旧架构上实验的工作不同,本文首次在现代深度嵌入系统(如ReDimNet, ECAPA-TDNN)上进行耳语语音适应性研究,并提出了一种新的后处理微调框架。该框架通过残差连接和瓶颈设计,专注于补偿发音方式的系统性差异。 主要实验结果:在CHAINS数据集的“正常vs耳语”试验中,所提模型将EER从基线ReDimNet-B6的6.77%降低至5.27%(相对提升22.26%),AUC达到98.16%。在“耳语vs耳语”试验中,EER为1.88%,相比之前的最佳模型ReDimNet-B2(2.20%)有15%的相对提升。论文还发现,同等相对强度的噪声对耳语语音说话人验证的性能损害通常比对正常语音更大。 实际意义:该方法提升了说话人验证系统在真实世界耳语场景下的可靠性和鲁棒性,对于需要安静或隐私保护的应用(如图书馆、夜间通话、医疗问诊)具有直接价值。同时,论文提供的基准对比为后续研究指明了方向。 主要局限性:实验仅在一个公开数据集(CHAINS)上进行,该数据集规模有限且录音环境理想,可能无法完全代表复杂多变的现实环境。方法需要对大型预训练模型进行微调,计算成本较高。此外,论文未探索在更嘈杂或更多样的耳语数据上的效果。 🏗️ 模型架构 论文提出的模型架构是一个两阶段系统,如图1(训练阶段)和图2(推理阶段)所示。 整体流程:输入原始语音音频,首先经过一个预训练的说话人验证骨干网络(ReDimNet-B6)提取初步嵌入向量。该向量随后被送入一个新添加的、轻量级的编码器-解码器模块。处理后的向量与原始嵌入通过残差连接相加,得到最终的说话人嵌入。在训练时,该嵌入会连接一个说话人分类头用于计算损失;在推理时,分类头被移除,仅保留编码器-解码器部分来生成最终嵌入。 主要组件: 骨干网络 (ReDimNet-B6):一个强大的预训练说话人验证模型,负责从原始音频中提取高维说话人表征。其参数在微调过程中会逐步解冻。 编码器-解码器模块:由四个全连接层(FC)构成,结构对称。编码器将192维的骨干网络输出逐步压缩至64维的瓶颈表示,解码器再将其解码回192维。每层后接ReLU激活函数。此设计旨在学习一个紧凑的中间表示,以补偿耳语与正常语音间的系统性差异,同时避免过拟合。 说话人分类头:仅在训练时存在。包含一个L2归一化的全连接层(NormFace),输出与各类别(说话人)中心的余弦相似度分数。 数据流与交互:音频 -> ReDimNet-B6 -> 192维嵌入 -> 编码器(192->128->64) -> 64维瓶颈特征 -> 解码器(64->128->192) -> 192维重构嵌入 -> 与原始嵌入残差相加 -> 最终说话人嵌入。 关键设计选择与动机:编码器-解码器被设计得“浅”且容量有限,因为其目标并非完全转换嵌入,而是进行“残差校正”,以避免在有限的训练数据上过拟合说话人身份。使用残差连接有助于保留原始骨干网络中已学习到的说话人判别信息。瓶颈结构强制模型学习更鲁棒、更泛化的表示。 💡 核心创新点 针对耳语语音的后处理微调框架:提出在强大的预训练说话人验证模型(ReDimNet-B6)之上,添加一个轻量级编码器-解码器结构,并结合三元组损失和余弦Softmax损失进行联合微调。此框架旨在系统性地将耳语嵌入映射到正常语音的嵌入空间,是解决发音方式不匹配问题的一种新思路。 首次对SOTA说话人验证模型进行耳语语音基准评估:论文系统性地测试了x-vector、ECAPA-TDNN、ECAPA2以及不同规模的ReDimNet(B0, B2, B6)在CHAINS数据集上各种试验条件下的性能。这填补了现代深度嵌入模型在该特定场景下评估的空白,提供了宝贵的性能基线。 噪声对耳语语音验证影响的实证分析:通过控制峰值信噪比(PSNR),论文量化分析了添加噪声对正常和耳语语音说话人验证性能的差异影响,发现耳语语音通常更脆弱。这为理解耳语语音在复杂环境中的挑战提供了新的视角。 🔬 细节详述 训练数据:使用CHAINS数据集。选择了36位说话人(18男18女)的独白和耳语朗读片段(寓言和句子),共5860个样本,平衡了正常与耳语语音。按说话人划分,70%训练,30%测试。未提及具体的数据增强策略。 损失函数:总损失为 L = L_trip + γ * L_ce。L_trip 是三元组损失,三元组构成是(正常语音,同一说话人的耳语语音,另一说话人的随机语音)。L_ce 是余弦Softmax损失,使用说话人分类头输出的余弦相似度分数计算。权重 γ = 10^-4,用于平衡两个损失项的量级,使分类头对权重的影响小于三元组损失。 训练策略:使用Adam优化器。编码器-解码器和说话人分类头的学习率为 10^-4,骨干网络ReDimNet-B6的微调学习率为 10^-5。权重衰减为 10^-4。训练100个epoch,批大小为128。采用渐进式解冻策略:每5个epoch解冻一层ReDimNet-B6的参数。在编码器-解码器层中使用了0.3的dropout。 关键超参数:编码器-解码器由4个全连接层组成,维度变化为 192 -> 128 -> 64 -> 128 -> 192。瓶颈维度为64。骨干网络为ReDimNet-B6。 训练硬件:单张NVIDIA H100 GPU(955GB RAM,未完全使用)。实验重复10次取平均值以评估一致性。 推理细节:训练完成后,移除说话人分类头,冻结所有权重。推理时,音频经过骨干网络和编码器-解码器,通过残差连接得到最终嵌入,用于计算余弦相似度进行验证。 正则化技巧:使用了dropout(0.3)和权重衰减(10^-4)。采用渐进式解冻以稳定微调过程。 📊 实验结果 主要Benchmark与结果:在CHAINS数据集上评估,主要指标为EER和AUC。见下表(综合自论文表1和表2): 模型 试验类型 EER (越低越好) AUC (越高越好) ReDimNet-B6 (基线) 正常 vs 耳语 6.77% 未提供 本文模型 (Ours) 正常 vs 耳语 5.27% 98.16% ReDimNet-B2 (最佳基线) 耳语 vs 耳语 2.20% 未提供 本文模型 (Ours) 耳语 vs 耳语 1.88% 99.73% 本文模型 (Ours) 正常 vs 正常 0.28% 100.0% 本文模型 (Ours) 所有 vs 所有 8.40% 97.72% 与SOTA对比:在最具挑战性的“正常vs耳语”试验中,本文模型(5.27% EER)显著优于所有基线模型,包括ECAPA2(8.28%)和ReDimNet-B6(6.77%)。在“耳语vs耳语”试验中,取得了最佳性能(1.88% EER)。在“所有vs所有”试验中,性能(8.40% EER)略低于ReDimNet-B6(7.76%),论文解释这可能是由于微调数据集规模小于原始预训练数据集所致。 消融实验(见论文表3): 更换骨干网络为ECAPA-TDNN后,性能大幅下降(“所有vs所有” EER 14.20%),甚至低于ECAPA-TDNN基线(13.72%),表明方法对骨干网络选择敏感。 仅解冻ReDimNet-B6最后两个块进行微调,整体性能变差(“所有vs所有” EER 9.19% vs 8.40%),但在“正常vs正常”上略有提升(0.27% vs 0.28%),说明完全解冻可能导致对正常语音的“灾难性遗忘”。 去掉编码器-解码器和分类头,直接微调ReDimNet-B6,性能急剧恶化(“所有vs所有” EER 17.85%),证明所提后处理模块的必要性。 噪声鲁棒性实验:论文评估了ECAPA-TDNN、ECAPA2、ReDimNet-B2/B6在添加MUSAN噪声后的性能。结果表明,对于大多数模型,相同相对强度的噪声对耳语语音验证的性能损害(相对EER变化)大于对正常语音的损害。例如,在PSNR≈38时,ReDimNet-B6在“耳语vs耳语”上的相对EER变化为10.13%,而“正常vs正常”为6.08%。 ⚖️ 评分理由 学术质量:5.0/7:论文解决了实际问题,方法设计合理且有充分的消融实验支持。技术正确性高,实验数据可信(多次重复取平均)。主要扣分点在于创新性有限(基于预训练模型的微调适配),且实验仅限于一个数据集,结论的普适性证据不足。噪声实验部分虽然有趣,但并未将所提模型应用于该场景,分析深度有限。 选题价值:1.5/2:选题聚焦于语音生物识别中的一个具体且重要的边缘场景(耳语),具有明确的应用前景和学术价值。论文的系统性评估和噪声分析为该子领域提供了有用的参考。 开源与复现加成:+0.5/1:提供了代码仓库链接和详细的训练配置,可复现性较好。但未公开预训练模型权重和完整数据集处理脚本,对完全复现造成一定障碍。 🔗 开源详情 代码:论文提供了GitHub仓库链接:https://github.com/mgraves236/sv-whispred-speech。 模型权重:论文中未提及是否公开微调后的模型权重。 数据集:使用了公开的CHAINS数据集和MUSAN噪声库,但论文中未提供具体的数据下载或预处理脚本。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了训练环境(单卡H100)、优化器(Adam)、学习率、批大小、训练轮数、解冻策略等关键超参数,为复现提供了良好基础。 引用的开源项目:论文依赖并引用了SpeechBrain工具包(用于x-vector和ECAPA-TDNN)、ECAPA2和ReDimNet的原始作者共享的预训练模型。 🖼️ 图片与表格 图片保留建议: 图1: 训练阶段模型架构图 | 保留: 是 - 清晰展示了完整的训练流程,包括骨干网络、编码器-解码器、残差连接和损失计算,是理解方法核心的关键。 图2: 推理阶段模型架构图 | 保留: 是 - 展示了部署时的简化结构,与图1对比明确了训练与推理的差异。 图3: ROC曲线图 | 保留: 否 - 虽然展示了性能,但其关键结论(高AUC)已在正文表格中明确给出,单独保留价值不大。 图4-6: 其他ROC曲线图 | 保留: 否 - 同上,属于重复性结果展示。 关键实验表格复述: 表1 (EER结果):核心结果。模型“Ours”在“正常vs耳语”试验中取得5.27% EER,优于基线ReDimNet-B6的6.77%;在“耳语vs耳语”试验中取得1.88% EER,优于最佳基线ReDimNet-B2的2.20%。 表3 (消融实验):关键结论。去掉编码器-解码器和分类头直接微调ReDimNet-B6导致“所有vs所有”EER从7.76%飙升至17.85%,证明了所提模块的必要性。 表6 (噪声相对变化):有趣发现。对于ReDimNet-B6,在PSNR≈38时,“耳语vs耳语”的相对EER变化为10.13%,显著高于“正常vs正常”的6.08%,证实了耳语语音对噪声更敏感。 📸 论文图片 ...

2026-04-23