Co-Initialization of Control Filter and Secondary Path via Meta-Learning for Active Noise Control

📄 Co-Initialization of Control Filter and Secondary Path via Meta-Learning for Active Noise Control #音频安全 #元学习 #信号处理 #少样本学习 #自适应滤波 ✅ 7.5/10 | 前25% | #音频安全 | #元学习 | #信号处理 #少样本学习 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Ziyi Yang (Smart Nation TRANS Lab, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore) 通讯作者:Zhengding Luo (Smart Nation TRANS Lab, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore) 作者列表:Ziyi Yang (南洋理工大学)、Li Rao (南京大学声学研究所现代声学重点实验室)、Zhengding Luo (南洋理工大学, 通讯作者)、Dongyuan Shi (西北工业大学)、Qirui Huang (南洋理工大学)、Woon-Seng Gan (南洋理工大学) 💡 毒舌点评 这篇论文的亮点在于其巧妙的工程切入点:不改变工业界广泛使用的FxLMS算法本身,而是通过一个“离线学习、在线简单设置”的元学习初始化模块来提升其性能,这种“即插即用”的兼容性思维非常务实。但其短板也很明显:验证场景过于“温和”和“干净”——仅在预录的路径切换实验上演示效果,缺乏对真实世界中连续、渐变、非平稳声学环境变化的长期跟踪评估,使得结论的鲁棒性打了折扣。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 290 words

Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing

📄 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing #说话人验证 #对比学习 #音频安全 #跨领域 #领域适应 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yitian Ding(国际关系学院,北京,中国) 通讯作者:Yansen Zhou(国际关系学院,北京,中国)论文中标注为通讯作者 作者列表:Yitian Ding(国际关系学院)、Shengchen Li(西交利物浦大学,苏州,中国)、Yansen Zhou(国际关系学院) 💡 毒舌点评 论文的亮点在于将“跨域对齐”、“类内紧致”与“置信度校准”三个目标巧妙地融为一个统一的训练框架(ACC Loss),并配合评估时的动态阈值校准(Centered AS-Norm),形成了一套完整的解决方案,其设计思路和消融实验都做得相当清晰。但略显遗憾的是,论文声称方法“即插即用、数据高效”,却未能开源代码或提供可直接运行的完整复现材料,这限制了学术界对其进行快速验证和在此基础上改进的可能性。 🔗 开源详情 代码:论文中未提及代码链接。文中提到“代码在PyTorch中实现”,但未提供公开仓库地址。 模型权重:未提及是否公开模型权重。 数据集:使用了公开数据集LibriSpeech和VoxCeleb,以及SSTC 2024挑战赛数据集。论文中未说明SSTC 2024数据集的获取方式。 Demo:未提及在线演示。 复现材料:提供了部分关键实现细节(如特征提取、网络结构、损失函数、训练超参数、硬件环境),但不足以完全独立复现,缺少完整的代码和配置文件。 引用的开源项目:论文引用了MFA-Conformer[21]、LibriSpeech[23]、VoxCeleb[24,25]、MUSAN[26]、RIR数据[27]等相关开源工作。 📌 核心摘要 本文针对语音转换(VC)对自动说话人验证(ASV)构成的安全威胁,研究了“源说话人追踪(SST)”任务,即从转换后的语音中识别原始说话人。其核心问题是转换语音与原始语音之间存在领域偏移,且转换语音内部的说话人特征呈现多峰结构,导致特征分布不稳定和固定阈值失效。为此,论文提出了一种“跨域对比学习与动态阈值校准”的统一范式。在训练阶段,提出联合优化ACC损失函数,它结合了对齐损失(InfoNCE,用于跨域对齐)、紧致性损失(IS-CDR,用于减少类内方差)和置信度损失(质量回归,用于质量感知校准)。在评估阶段,采用Centered AS-Norm(全局中心化+自适应归一化)进行分布感知的动态评分校准。在SSTC 2024评测基准上,所提系统在16个测试集上的平均等错误率(EER)为16.509%,超越了挑战赛冠军系统(16.788%),并将官方基线(20.613%)降低了4.104个百分点。消融实验证明,所提出的训练损失和评估后处理机制对性能提升均有显著贡献。该方法的主要贡献在于提供了一个完整的训练-评估闭环,以增强SST任务的跨域泛化能力和分数可校准性。其局限性在于评估场景局限于单一基准,且未公开代码和模型。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 298 words

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院) 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。 💡 毒舌点评 论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:实验使用了公开的PartialSpoof和ADD2023数据集,但论文本身未发布新数据集。 Demo:未提及在线演示。 复现材料:提供了较为详细的训练配置(优化器、学习率、批量大小、损失权重、硬件),但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:引用了Wav2Vec2预训练模型(作为特征提取器)。 总结:论文中未提及明确的开源计划。 📌 核心摘要 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。 主要对比实验结果(表1): 方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 316 words

Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations #音频大模型 #音频安全 #对抗样本 #语音合成 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)(注:论文标明三位为共同第一作者) 通讯作者:Hung-yi Lee(台湾大学)(注:论文未明确标注通讯作者,Hung-yi Lee为资深作者,按惯例推断) 作者列表:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)、Chih-Kai Yang(台湾大学)、Szu-Wei Fu(NVIDIA)、Zhehuai Chen(NVIDIA)、Ke-Han Lu(台湾大学)、Sung-Feng Huang(NVIDIA)、Chao-Han Huck Yang(NVIDIA)、Yu-Chiang Frank Wang(NVIDIA)、Yun-Nung Chen(台湾大学)、Hung-yi Lee(台湾大学) 💡 毒舌点评 这篇论文的“问题嗅觉”非常灵敏,精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞,并用一套严谨的控制变量实验(同一指令、同一说话人、不同情绪与强度)给出了令人信服的实证证据,这是其最大亮点。然而,论文在揭示问题后戛然而止,未能进一步探索漏洞产生的原因(如数据偏差、模型架构缺陷)或提出任何防御/改进方案,使其研究深度略显不足,更像是一个扎实的“安全审计报告”,而非一个完整的“攻防研究”。此外,模型评估的全面性可以进一步加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文明确提供数据集获取链接:https://huggingface.co/LALM-emotional-vulnerability。 Demo:未提及。 复现材料:论文描述了数据集构建流程和评估指标,但未提供完整的训练细节、配置或检查点。 论文中引用的开源项目:主要依赖AdvBench(文本有害查询)、CREMA-D(情感语音参考)和CosyVoice 2(TTS模型)。 📌 核心摘要 问题:大型音频语言模型(LALMs)的安全对齐在面对说话人情感(副语言信息)变化时,存在尚未被系统研究的脆弱性。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 230 words

Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

📄 Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech #语音合成 #说话人识别 #流匹配 #音频安全 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Myungjin Lee (梨花女子大学 AI与软件学院) 通讯作者:Jiyoung Lee (梨花女子大学 AI与软件学院) 作者列表:Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) (* 标记为共同第一作者,† 标记为通讯作者) 💡 毒舌点评 这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景,提供了一种“即插即忘”的优雅解决方案,免去了昂贵的重新训练,这是其最大的工程和实用价值。然而,方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析,使得整个转向机制的普适性打上问号;此外,实验仅在F5-TTS上完成,对于其他TTS架构是否同样有效,仍是未知数。 🔗 开源详情 代码:论文提供了代码和演示页面的链接:http://mmai.ewha.ac.kr/trus。是。 模型权重:论文中未提及是否公开F5-TTS的预训练权重或TruS干预后的任何权重(因为TruS无需权重)。 数据集:论文使用了公开数据集(Emilia的英文子集、LibriSpeech、CREMA-D),但未提及TruS评估所用的特定子集(如opt-out说话人列表)的获取方式。 Demo:论文提到“The demo and code are available on http://mmai.ewha.ac.kr/trus”,因此提供在线演示。是。 复现材料:论文给出了部分超参数(如α=1.2, N=30),并进行了相关消融实验,但缺少详细的推理脚本、环境依赖(如F5-TTS的具体版本)、以及构建ID原型的具体操作脚本等复现材料。 论文中引用的开源项目:主要依赖F5-TTS([5])作为基座模型。评估中使用了ECAPA-TDNN([31])计算SIM,Whisper large-V3([32])计算WER,emotion2vec([33])计算SIM-Emo。 📌 核心摘要 要解决的问题:零样本文本到语音(TTS)模型能高度逼真地模仿任意说话人的声音,这带来了严重的隐私和安全风险,可能导致未授权的语音生成。现有应对方案如水印(事后追溯)、语音匿名化(身份替换)和基于训练的遗忘(成本高、无法处理未见说话人)均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。 方法核心:提出TruS,一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是:在TTS模型内部,通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”(opt-out)的未知说话人时,计算其激活与ID原型的差异,得到一个身份特定的转向向量。在生成过程中,动态选择那些身份信号显著的层和时间步,将当前激活在转向向量方向上的投影分量减去,从而抑制该目标身份信息的输出,同时保留语言内容和韵律情感。 与已有方法相比新在哪里: 范式转变:从数据删除(重训练)转向推理时控制。 免训练与即插即用:无需任何重训练或微调,可直接应用于现有TTS模型,极大降低了部署成本和时间。 处理未见说话人:首次在零样本TTS遗忘任务中,能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求,更具现实意义。 动态与自适应:通过动态阈值(基于层间相似度统计)自动选择干预点,比固定规则的转向(如EmoSteer)更精细,避免了对生成质量的过度破坏。 主要实验结果: 在已见opt-out说话人上,TruS(SIM-SO: 0.477)与需要重训练的TGU(SIM-SO: 0.510)相比,在身份抑制上更有效,同时WER(语言保真度)更好(3.25 vs 4.03),且训练时间成本为零。但SGU(SIM-SO: 0.106)抑制更强,但破坏了保留说话人的语音质量(SIM-R大幅下降)。 关键突破在于对未见opt-out说话人(LibriSpeech)的泛化能力:TruS将SIM-UO从基线的0.668显著降低至0.488,Spk-ZRF-UO从0.906提升至0.913,证明其可推广至未知身份。 在情感数据集(CREMA-D)上,TruS在抑制未见说话人身份(SIM-UO: 0.131 vs 0.217)的同时,情感相似度(SIM-Emo)几乎无损(0.723 vs 0.732),表明能较好地保留非身份属性。 消融研究表明,采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡;ID原型的保留说话人池大小N=30时综合性能最优。 实际意义:为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具,允许个人明确拒绝其声音被合成,且该工具易于集成到现有系统中,为生成式语音AI的负责任部署提供了一种可扩展的技术方案。 主要局限性: 方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设,该假设的普适性有待验证。 实验验证仅基于F5-TTS(一种基于DiT的流匹配模型)一种架构,其有效性是否能迁移到其他主流的零样本TTS模型(如自回归模型)尚不明确。 对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音,这要求opt-out用户提供一段自己的录音作为凭证,可能存在额外操作门槛。 🏗️ 模型架构 TruS并非一个独立训练的模型,而是一个插入到预训练TTS模型(如F5-TTS)推理过程中的干预模块。其整体工作流程如图2所示。 图2展示了TruS与TTS模型协同工作的流程: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 384 words

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

📄 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems #音频安全 #时频分析 #端到端 #工业应用 #鲁棒性 🔥 8.5/10 | 前25% | #音频安全 | #时频分析 | #端到端 #工业应用 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Tarikul Islam Tamiti(George Mason University, 网络安全工程系) 通讯作者:未说明 作者列表:Tarikul Islam Tamiti(George Mason University, 网络安全工程系)、Biraj Joshi(George Mason University, 网络安全工程系)、Rida Hasan(George Mason University, 网络安全工程系)、Anomadarshi Barua(George Mason University, 网络安全工程系) 💡 毒舌点评 亮点:这是一篇视角独特的安全研究论文,揭示了HVAC系统这一庞大基础设施中潜在的、令人意想不到的语音窃听渠道,并给出了从低质量信号中恢复可理解语音的完整技术方案,具有很强的现实警示意义。短板:其威胁模型的通用性值得商榷,评估仅限于特定距离(0.5m训练,1.2m测试)、单一语言(英语)和受控环境,实际复杂场景(如多重噪声、多说话人)下的鲁棒性尚未验证,可能简化了现实世界的攻击难度。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中提到“The dataset will be made open source after acceptance of the paper.”,即数据集计划在论文被接受后开源。 Demo:未提及。 复现材料:论文在附录或正文中提供了部分训练细节,如模型大小(61.6M)、损失函数的具体设计(复数多分辨率STFT损失,S=3,具体分辨率参数)、硬件(NVIDIA 4090 GPU)。但学习率、优化器、训练轮数等关键训练超参数未在提供的文本中说明。 论文中引用的开源项目:论文引用了多个作为基线的开源工作,包括NU-Wave [22]、AP-BWE [23]、AERO [24] 和 PHASEN [15],但未提及使用了其他特定的开源代码库或工具。 总结:论文有明确的开源数据集计划,并提供了部分复现信息,但整体复现材料(尤其是代码和模型权重)不完整。 📌 核心摘要 本文旨在揭示并解决利用暖通空调(HVAC)系统中的差压传感器(DPS)进行语音窃听的新型隐私威胁。核心方法是提出了HVAC-EAR,一个基于复数域U-Net的语音重建模型,它能将低采样率(0.5-2 kHz)、高噪声的DPS压力数据,重构为采样率高达8 kHz的可理解语音。与之前仅能进行关键词检测或依赖特定振动传感器的工作相比,HVAC-EAR的新颖之处在于:(1)设计了复杂统一注意力模块(CUAB),能够捕捉时频谱图上的全局音素依赖关系;(2)采用复数多分辨率短时傅里叶变换(STFT)损失,联合重建幅度和相位,有效抑制了HVAC系统的瞬态噪声。主要实验结果表明,在真实HVAC设施中,HVAC-EAR在0.5m距离下训练的模型,能在1.2m距离内重构出具有显著可懂度的语音(以STOI、PESQ、NISQA-MOS等指标衡量),性能优于NU-Wave、AERO等基线模型。例如,在0.5 kHz → 8 kHz上采样任务中,其SI-SDR为8.88 dB,显著高于原始压力数据的4.24 dB。这项工作的实际意义是首次实证了HVAC DPS可能被用作窃听工具,对医院、洁净室等敏感环境的语音隐私构成了新威胁。主要局限性是其评估距离有限(超过1.2m性能急剧下降),且仅在英语数据集上进行验证。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 423 words

ICASSP 2026 - 音频安全 论文列表

ICASSP 2026 - 音频安全 共 11 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems 8.5分 前25% 🥈 RoCo: Robust Code for Fast and Effective Proactive Defense a 7.5分 前25% 🥉 Membership Inference Attack against Music Diffusion Models v 7.5分 前25% 4. A Feature-Optimized Audio Watermarking Algorithm with Adapti 7.5分 前25% 5. Co-Initialization of Control Filter and Secondary Path via M 7.5分 前25% 6. LenslessMic: Audio Encryption and Authentication via Lensles 7.5分 前25% 7. Bloodroot: When Watermarking Turns Poisonous for Stealthy Ba 7.5分 前25% 8. Emotional Damage: Investigating Safety Vulnerabilities of La 7.5分 前25% 9. Audio-Text Jailbreak Attack on Large Audio-Language Models: 7.0分 前25% 10. PRoADS: Provably Secure And Robust Audio Diffusion Steganogr 6.5分 前50% 11. Linguard: Authenticating Speech Recordings Using Speech Reco 6.5分 前50% 📋 论文详情 🥇 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems 🔥 8.5/10 | 前25% | #音频安全 | #时频分析 | #端到端 #工业应用 ...

2026-04-29 · 更新于 2026-06-12 · 8 min · 1559 words

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者按字母顺序列出,未明确标注第一作者) 通讯作者:未说明(论文中未提供通讯作者信息) 作者列表:Daniyal Kabir Dar(密歇根州立大学计算机科学与工程系)、Qiben Yan(密歇根州立大学计算机科学与工程系)、Li Xiao(密歇根州立大学计算机科学与工程系)、Arun Ross(密歇根州立大学计算机科学与工程系) 💡 毒舌点评 亮点在于将对抗扰动的分析从单纯的转录错误(WER/CER)提升到了语音学特征(元音、辅音)和说话人身份表征的层面,提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架(白盒攻击+评估指标)相对常规,对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限,更多是相关性观察而非因果解释。 🔗 开源详情 代码:论文在结论部分提供了一个GitHub仓库链接(https://dantyalkabir.github.io/icassp-2026-results/),用于提供额外的图示和可视化结果。但未明确说明该仓库是否包含生成对抗样本、运行评估的完整可执行代码。 模型权重:未提及公开攻击生成的对抗样本权重或修改后的说话人模型权重。 数据集:实验使用公开数据集VCTK [31]。 Demo:未提供在线演示。 复现材料:论文详细描述了攻击框架、目标短语设计思路、评估指标,但缺少具体的训练/优化超参数(如迭代次数、步长、c值)、模型配置细节和完整的脚本,复现存在一定难度。 引用的开源项目:引用了DeepSpeech [2]、ECAPA-TDNN [3]等作为基线模型。 📌 核心摘要 本文研究了针对自动语音识别(ASR)系统的对抗性语音攻击,如何同时影响说话人身份验证。论文的核心问题是:这些旨在改变转录文本的微小扰动,是否会破坏用于区分说话人的声学指纹?方法上,作者以DeepSpeech为攻击目标,采用基于梯度的白盒攻击方法生成对抗样本,并创新性地从语音学角度(如元音中心化、辅音替换)分析扰动模式。与以往只关注转录准确率的工作不同,本文的核心贡献在于系统评估了对抗攻击对说话人验证系统(使用ECAPA-TDNN和ResNet模型)的影响,提出了“身份漂移”概念。实验结果显示,在VCTK数据集上,攻击的成功率与目标短语的语音复杂度和长度强相关:短元音丰富的短语(如“yes”)身份漂移很小(TMR=100%, d’≈9.6),而长且包含复杂辅音丛的短语(如pangrams)会导致严重的身份漂移(TMR低至44%, d’降至约3.0)。该研究的实际意义在于揭示了语音对抗攻击的双重危害,提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置,未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构 本文并未提出一个新的模型架构,而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 252 words

LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging

📄 LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging #音频安全 #无透镜成像 #神经音频编码 #音频分类 ✅ 7.5/10 | 前25% | #音频安全 | #无透镜成像 | #神经音频编码 #音频分类 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Petr Grinberg (Audiovisual Communications Laboratory, EPFL) 通讯作者:未说明(作者列表未标注,邮箱为共通格式 first.last@epfl.ch) 作者列表:Petr Grinberg (EPFL), Eric Bezzam (EPFL), Paolo Prandoni (EPFL), Martin Vetterli (EPFL)。所有作者均隶属于 EPFL 的 Audiovisual Communications Laboratory。 💡 毒舌点评 亮点:本文巧妙地将“无透镜相机的视觉隐私”这一特性,逆向思维用于“音频的隐私保护”,构建了一个从声到光再到密文的全新物理安全链路,构思颇具巧思。短板:系统实用性受制于笨重的硬件原型(需要显示器作为光源)和缓慢的采集速度,其宣称的“物理层安全”优势,在“已知明文攻击”下可能因音频帧尺寸过小而受到挑战,迫使采用更复杂(且效果更差)的帧分组策略来弥补。 🔗 开源详情 代码:论文提供了项目主页链接 (https://blinorot.github.io/projects/LenslessMic),并声明开源了代码。但论文文本中未直接给出代码仓库(如GitHub)的具体URL。 模型权重:论文中未明确提及是否公开预训练好的Learned等模型的具体权重文件。 数据集:论文明确开源了收集的多个数据集(见表1),包括Librispeech子集和SongDescriber音乐数据,以及对应的无透镜测量值。可通过项目主页获取。 Demo:论文提供了一个在线演示页面 (https://blinorot.github.io/projects/LenslessMic),可以试听重构的音频样本。 复现材料:论文提供了详细的训练数据收集方法、模型架构、损失函数、训练步数(50k)、学习率(1e-4)、batch大小(4个连续帧)等复现所需的关键信息。未提及检查点文件和详细的环境配置。 论文中引用的开源项目: 神经音频编码器:DAC (Descript Audio Codec) [14]。 音频评估:NVIDIA NeMo 工具包 [27] 中的Parakeet-TDT-0.6B-v2(用于转录)和TitaNet-L(用于说话人嵌入)。 无透镜成像原型:DigiCam [15]。 重建算法基线:ADMM [24]。 📌 核心摘要 要解决什么问题:数字音频的安全传输目前主要依赖软件加密算法(如AES),论文旨在探索一种新的、基于物理硬件的补充性安全方案,为音频数据提供额外的保护层,以应对潜在的深度伪造、窃听等威胁。 方法核心是什么:提出LenslessMic,一个混合硬件-软件系统。其核心流程是:将音频信号通过神经音频编码器(NAC,具体使用DAC)压缩为潜在表示,将该表示重塑为图像帧;利用无透镜相机(一个基于可编程掩模的低成本原型DigiCam)对这些图像帧进行拍摄,得到多重散射的测量值(密文)。解密时,必须使用正确的点扩散函数(PSF,由掩模图案决定)对测量值进行逆向重建,恢复出潜在表示图像,再输入音频解码器恢复音频。 与已有方法相比新在哪里:(1) 跨模态安全范式:首次将无透镜成像的视觉隐私特性应用于音频加密,开辟了光学物理层安全在音频领域的新应用。(2) 融合架构创新:结合了NAC的鲁棒性(尤其是残差向量量化RVQ的容错能力)与无透镜成像的安全性,提出了完整的端到端加密-解密流程。(3) 主动安全机制:通过可编程掩模动态改变PSF,并结合帧分组(g)技术,主动增强系统对各类攻击的抵抗力。 主要实验结果如何:论文在多个数据集上进行了验证。关键结果如表2所示:使用在域数据(train-clean)训练的Learned模型,解密语音的ViSQOL为4.50,STOI达0.96,接近无加密的Ground-truth。安全性方面,图2显示当正确PSF像素比例W=7%时,WER已达100%,搜索空间等效于AES-256。认证实验(图3)显示,正确PSF与随机PSF的恢复结果在WER和UTMOS指标上可完美区分,认证准确率达100%。帧分组消融表明,g=2足以防御已知明文攻击(NoPSF模型WER=100%),但会轻微降低重建质量。 实际意义是什么:该研究为音频数据安全提供了一种新的防御维度——物理层安全。它证明了光学加密可以与先进的音频编码技术结合,在保证解密质量的同时,提供强大的加密强度和用户认证能力。其开源贡献有助于推动该交叉领域的研究。 主要局限性是什么:(1) 硬件实用性:当前原型依赖电脑显示器作为光源,体积大,不适合实际部署;采集速度慢,存储开销大于原始音频。(2) 质量与安全的权衡:增强安全性(如增大g)会导致解密质量下降。(3) 泛化能力:模型在跨音频类型(语音到音乐)和跨编码器(DAC到X-Codec)时性能有下降,表明系统对特定编码格式有依赖性。(4) 潜在攻击面:论文承认小尺寸音频帧可能使已知明文攻击在理论上可行,尽管通过增大g进行了缓解。 🏗️ 模型架构 LenslessMic是一个端到端的音频加密与认证系统,其架构包含编码、加密(物理拍摄)、解密(重建)和解码四个主要阶段。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 574 words

Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark

📄 Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark #音频安全 #语音识别 #说话人验证 #信号处理 ✅ 6.5/10 | 前50% | #音频安全 | #信号处理 | #语音识别 #说话人验证 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Shameer Faziludeen(University College Cork, School of Computer Science and Information Technology) 通讯作者:未明确说明(论文提供的是所有作者的邮箱,未指定通讯作者) 作者列表: Shameer Faziludeen(University College Cork) Arun Sankar M. S.(South East Technological University, Department of Electronics and Communication Engineering) Phillip L. De Leon(University of Colorado Denver, Department of Electrical Engineering) Utz Roedig(University College Cork) 💡 毒舌点评 亮点:系统架构设计巧妙,将数字签名、水印和语音处理技术解耦又紧密结合,实现了“内容签名”而非“信号签名”的理念,概念上清晰且实用。 短板:实验部分过于依赖单一数据集(TIMIT)且规模较小,缺乏对抗真实世界复杂攻击(如高质量语音克隆替换)的评估,结论的普适性存疑;同时,系统各环节的容错与性能边界分析不足。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 335 words