Identity Leakage Through Accent Cues in Voice Anonymisation

📄 Identity Leakage Through Accent Cues in Voice Anonymisation #语音匿名化 #隐私保护 #公平性 #口音识别 #模型评估 ✅ 7.0/10 | 前50% | #语音匿名化 | #模型评估 | #隐私保护 #公平性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Rayane Bakari(Orange Innovation, France; EURECOM, Sophia Antipolis, France) 通讯作者:未说明 作者列表:Rayane Bakari (Orange Innovation, EURECOM), Olivier Le Blouch (Orange Innovation), Nicolas Gengembre (Orange Innovation), Nicholas Evans (EURECOM), Michele Panariello (EURECOM) 💡 毒舌点评 亮点:论文敏锐地抓住了语音匿名化评估中一个关键盲点——非时域线索(口音)的残留风险,并系统性地利用多种嵌入(时域、非时域、口音相关)和攻击场景进行量化分析,逻辑严谨,论证有力,提出的公平性问题也很有价值。 短板:对于其提出的改进方案B4*,分析略显“止步于现象”,缺乏对其内部机制(字符级条件反射如何具体抑制口音线索)的深入解构或对比消融;此外,实验部分因部分参赛系统代码不可用,导致对比不够完整,削弱了结论的普适性。 ...

2026-04-29

Listen, But Don't Leak: Sensitive Data Protection for Privacy Aware Automatic Speech Recognition with Acoustic Triggers

📄 Listen, But Don’t Leak: Sensitive Data Protection for Privacy Aware Automatic Speech Recognition with Acoustic Triggers #语音识别 #对抗样本 #隐私保护 #模型微调 ✅ 7.5/10 | 前25% | #语音识别 | #对抗样本 | #隐私保护 #模型微调 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Trinita Roy(斯图加特大学自然语言处理研究所) 通讯作者:未说明 作者列表:Trinita Roy(斯图加特大学自然语言处理研究所)、Ngoc Thang Vu(斯图加特大学自然语言处理研究所) 💡 毒舌点评 这篇论文巧妙地将“攻击”变成了“防御”,把原本用于欺骗ASR的声学触发器,扭转为用户手中一个明确的“隐私保护”开关,这种概念转换本身就很有趣且实用。然而,它的“防御工事”是建立在特定训练数据和中小规模模型上的,如果现实世界中的ASR系统(比如GPT-4o、Gemini等)遇到一个未经此类训练的、更鲁棒的“触发器”或者根本忽略了这个高频信号,那所谓的“保护”可能就形同虚设了。 📌 核心摘要 要解决什么问题:随着自动语音识别(ASR)系统的广泛应用,其无意中转录用户的敏感或私人信息引发了严重的隐私担忧。现有的隐私保护方法多为后处理,难以在保护隐私和维持转录效用之间取得良好平衡。 方法核心是什么:本文提出了一种名为“保护性声学触发”(Protective Acoustic Triggering, PAT)的新方法。其核心是在音频输入中前置一个由双音合成的高频声学触发信号,并通过微调ASR模型(如Whisper),使其在检测到该触发信号时,自动将后续语音内容替换为特殊的<REDACTED>令牌,从而实现内置的、用户可控的隐私编辑。 与已有方法相比新在哪里:传统方法(如差分隐私、后处理过滤)是被动且滞后的。本文的创新在于:1) 范式转化:首次将用于攻击的声学对抗触发器,重新定义为一种主动的、防御性的隐私控制机制。2) 用户可控:触发器作为显式控制信号,让用户能实时、灵活地开启或关闭隐私保护模式。3) 端到端嵌入:将隐私意识直接嵌入ASR模型内部,而非依赖外部模块。 主要实验结果如何:在句子级编辑任务中,Whisper-small模型达到了99.47%的编辑成功率(RSR)。在更精细的短语级编辑任务中,该模型成功保护了97.7%的测试样本(即其中超过一半的敏感短语被编辑),对敏感短语的保护精度(PRA)为90.6%,同时在非敏感内容上的词错误率(WER)仅为10.9%,接近基线水平。关键实验结果如下: 模型 RSR (%) (句子级) WER (句子级) SRP (%) SRR (%) RSRp (%) PRA (%) WER (短语级) Whisper-tiny 98.70 10.2 92.8 90.4 96.4 86.2 11.1 Whisper-base 99.00 9.8 94.5 93.9 97.1 88.3 10.5 Whisper-small 99.47 9.6 95.3 94.2 97.7 90.6 10.9 实际意义是什么:该工作为构建隐私感知的ASR系统提供了一种新的思路。它赋予了用户对自身语音数据转录行为的显式控制权,有望应用于智能音箱、实时字幕、医疗/法律语音记录等对隐私敏感的场景,平衡了服务便利性与隐私安全。 主要局限性是什么:1) 模型与数据规模验证有限:实验仅在Whisper的tiny、base、small三个较小模型上进行,且使用了大量合成数据,其在更大、更强的ASR模型及真实、复杂对话数据上的有效性和鲁棒性尚未可知。2) 触发信号鲁棒性存疑:论文承认高频触发信号可能被简单的滤波器过滤或自然噪声干扰,其实际部署的可靠性面临挑战。3) 评估场景单一:评估基于朗读或合成语音,未涉及自发对话、多人重叠、远场拾音等更现实的复杂声学环境。 🏗️ 模型架构 论文描述了一种基于现有Whisper模型的微调方案,而非设计全新架构。其核心思想是在模型的输入和输出端分别进行适配,以学习“触发信号 -> 编辑行为”的映射。 ...

2026-04-29

PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples

📄 PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples #语音匿名化 #对抗样本 #说话人识别 #语音合成 #隐私保护 ✅ 7.0/10 | 前25% | #语音匿名化 | #对抗样本 | #说话人识别 #语音合成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Shiqi Zhou(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) 通讯作者:Lingcui Zhang(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) 作者列表: Shiqi Zhou(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) Jiayu Li(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) Jiangyi Deng(浙江大学电气工程学院) Lingcui Zhang(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) Jin Cao(西安电子科技大学网络与信息安全学院) Ben Niu(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) 💡 毒舌点评 这篇论文精准地抓住了现有语音对抗防御研究“各自为战”的痛点,提出了一个“一石二鸟”的统一防御框架(PRSA),实验设计也相当全面,同时对抗ASV和TTS多个系统。然而,其核心创新——“同时防御”更多是目标设定上的新颖,而非技术手段上的革命性突破,且代码未开源让其声称的优越性能打了折扣,读者很难直接验证。 📌 核心摘要 问题:当前利用对抗样本保护语音隐私的方法存在缺陷,要么只能防御自动说话人验证(ASV),要么只能防御文本到语音(TTS)合成攻击,缺乏一种能同时有效防御两者的综合方案。 方法核心:提出PRSA方法,将对抗扰动生成建模为一个联合优化问题,目标是最大化ASV和TTS系统提取的说话人嵌入的偏离度,同时最小化人耳可感知失真。关键创新包括:1) 针对ASV和TTS设计了不同的嵌入损失(结合欧氏距离和角距离);2) 提出基于自然语音调制的输入增强(AM/FM)以提升扰动迁移性;3) 采用梯度高斯滤波以改善生成音频的自然度。 新意:与以往仅针对单一攻击(如V-CLOAK针对ASV, AntiFake针对TTS)的防御不同,PRSA旨在提供一体化的综合防护。其输入增强方法利用外部自然语音进行调制,而非简单的随机变换。 ...

2026-04-29

Speaker Anonymisation for Speech-Based Suicide Risk Detection

📄 Speaker Anonymisation for Speech-Based Suicide Risk Detection #语音匿名化 #语音大模型 #语音转换 #语音情感识别 #隐私保护 ✅ 7.5/10 | 前25% | #语音匿名化 | #语音转换 | #语音大模型 #语音情感识别 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyun Cui (上海人工智能实验室 & 清华大学电子工程系) 通讯作者:Chang Lei (清华大学万科公共卫生与健康学院),Wen Wu (上海人工智能实验室) 作者列表:Ziyun Cui (上海人工智能实验室、清华大学电子工程系),Sike Jia (清华大学电子工程系),Yang Lin (清华大学为阳书院),Yinan Duan (清华大学万科公共卫生与健康学院),Diyang Qu (清华大学万科公共卫生与健康学院),Runsen Chen (清华大学万科公共卫生与健康学院),Chao Zhang (上海人工智能实验室、清华大学电子工程系),Chang Lei (清华大学万科公共卫生与健康学院),Wen Wu (上海人工智能实验室) 💡 毒舌点评 亮点:这是首个系统性研究语音匿名化对下游自杀风险检测任务影响的工作,其构建的多维评估框架(语音质量、说话人鉴别、语义/情感保留)和对互补性匿名化策略的验证(CosyVoice+RVC组合)具有很强的实用指导价值。短板:论文的核心下游任务(自杀风险检测)仅为一个简单的二分类,且未公开核心数据集和代码,使得其关键结论(如“接近原始性能”)的普适性和可复现性大打折扣。 📌 核心摘要 问题:利用语音自动检测青少年自杀风险具有重要潜力,但语音数据本身包含丰富的个人可识别信息。如何在保护这一脆弱群体隐私(实现说话人匿名化)的同时,保留用于风险检测的关键信息,是一个亟待研究的空白。 方法:首次系统性评估了三大类语音匿名化技术:传统信号处理(基频调整、McAdams)、基于神经声码器的内容-说话人解耦(SSL-SAS, FreeVC, SeedVC, RVC)以及基于转录文本的语音合成(SparkTTS, CosyVoice)。构建了一个包含语音质量、说话人鉴别、基频偏移、语义和情感内容保留的五维评估框架。下游检测模型采用基于Qwen2.5-Omni-7B的语音大模型,通过DoRA进行微调。 创新:首次将隐私保护的“说话人匿名化”与心理健康领域的“语音自杀风险检测”任务进行深度耦合研究;提出了一个全面的匿名化效果评估框架;通过实验揭示了不同匿名化方法保留信息的互补性(RVC擅长保留声学特征,CosyVoice擅长保留语义内容),并验证了组合策略的有效性。 结果:在1,223名中国青少年的语音数据集上,原始语音检测准确率为0.702。单一匿名化方法中,RVC表现最好(准确率0.680, EER 0.510),CosyVoice次之(准确率0.658)。将二者概率平均的集成方法达到了0.692的准确率,与原始语音仅差1%,且统计上无显著差异(p=0.677),同时保持了有效的匿名化(EER ~0.5)。 方法 检测准确率 说话人等错误率 (EER) 基频相关性 (PCC_F0) 情感相似度 语义错误率 (CER) 原始语音 0.702 0.185 - - - RVC 0.680 0.510 0.443 0.619 0.362 CosyVoice 0.658 0.497 -0.002 0.257 0.024 CosyVoice+RVC 0.692 ~0.50 (组合) (组合) (组合) 其他方法 0.625-0.644 0.248-0.512 - - - 图4: 不同匿名化方法下的自杀风险检测准确率。集成CosyVoice+RVC达到了接近原始语音的性能。 ...

2026-04-29

Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning

📄 Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning #音频事件检测 #对抗学习 #多任务学习 #隐私保护 #端到端 ✅ 7.5/10 | 前25% | #音频事件检测 | #对抗学习 | #多任务学习 #隐私保护 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Nao Sato (NTT, Inc., Japan) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Nao Sato (NTT, Inc., Japan), Masahiro Yasuda (NTT, Inc., Japan), Shoichiro Saito (NTT, Inc., Japan) 💡 毒舌点评 亮点是提出了一个灵活且可扩展的“任务导向”框架,将隐私保护从固定的信号处理流程转变为可通过改变训练任务(隐私目标)来定制的学习过程,思路巧妙。短板在于所有实验均基于自建的、场景相对可控的合成数据集,这虽然能验证方法原理,但离真实世界中复杂、非结构化的声学环境和攻击场景还有距离,说服力略打折扣。 📌 核心摘要 问题:声音事件检测(SED)在智能家居等场景的应用需要持续录音,这会导致说话人身份、键盘敲击声等隐私信息泄露。现有方法多集中于分离并处理语音,不够灵活,无法保护非语音的隐私信息,且混淆机制依赖手动设计。 方法核心:提出端到端对抗多任务学习(EAML)。其核心是一个混淆网络(OBFNet),通过对抗训练(梯度反转层GRL)学习一个时频掩膜,在混淆指定隐私信息(如说话人ID、键盘声)的同时,保留完成目标任务(如SED)所需的声音信息。 与已有方法相比新在哪里:与传统两阶段(先分离再信号处理)方法相比,EAML是端到端可学习的。最关键的是,它实现了“任务导向”的混淆:隐私保护的目标不再是固定的(仅限语音),而是可以作为训练任务之一,通过改变训练配置(如表1的T1-T3)灵活定义需要混淆的信息类型和需要保留的目标信息。 主要实验结果:实验在包含7类声音事件的合成数据集上进行。如表2所示,在T1配置下,EAML在混淆说话人身份(ASI)上达到了最接近随机猜测的性能(Top-1准确率0.11%),同时SED性能(F-score)仅比未混淆的基线(87.40%)下降约4.5个百分点(82.88%),显著优于传统方法(D和E)。如表3所示,EAML在T2配置中通过引入SI-SDR损失,将音频质量(SI-SDR)从-20.35 dB提升至-16.78 dB,同时不影响其他任务。在T3配置中,成功将键盘打字检测(TAD)的AUC从0.99降至0.72。 实际意义:为隐私敏感的音频应用(如家庭监控、办公环境感知)提供了一种新的、灵活的技术范式。用户可根据具体场景定义“何为隐私”和“何为有用信息”,系统通过学习来平衡二者。 主要局限性:研究基于精心构建的合成数据,可能无法完全代表真实场景的复杂性;对“隐私”的定义和攻击模型相对简单,仅评估了预定义分类器的识别性能,未考虑更强大的攻击者或更广泛的隐私属性;混淆导致目标任务性能有一定程度的下降。 🏗️ 模型架构 EAML的整体架构围绕一个核心的混淆网络(OBFNet)和多个任务网络展开,通过对抗学习和多任务损失联合训练。 ...

2026-04-29