Listen, But Don't Leak: Sensitive Data Protection for Privacy Aware Automatic Speech Recognition with Acoustic Triggers

📄 Listen, But Don’t Leak: Sensitive Data Protection for Privacy Aware Automatic Speech Recognition with Acoustic Triggers #语音识别 #对抗样本 #隐私保护 #模型微调 ✅ 7.5/10 | 前25% | #语音识别 | #对抗样本 | #隐私保护 #模型微调 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Trinita Roy(斯图加特大学自然语言处理研究所) 通讯作者:未说明 作者列表:Trinita Roy(斯图加特大学自然语言处理研究所)、Ngoc Thang Vu(斯图加特大学自然语言处理研究所) 💡 毒舌点评 这篇论文巧妙地将“攻击”变成了“防御”,把原本用于欺骗ASR的声学触发器,扭转为用户手中一个明确的“隐私保护”开关,这种概念转换本身就很有趣且实用。然而,它的“防御工事”是建立在特定训练数据和中小规模模型上的,如果现实世界中的ASR系统(比如GPT-4o、Gemini等)遇到一个未经此类训练的、更鲁棒的“触发器”或者根本忽略了这个高频信号,那所谓的“保护”可能就形同虚设了。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中使用了LibriSpeech(公开)和自建的短语级编辑数据集。自建数据集未提及是否公开。 Demo:未提及。 复现材料:论文未提供详细的训练超参数(如学习率、batch size)、硬件配置或训练日志。模型架构基于公开的Whisper,但微调后的权重未公开。 论文中引用的开源项目:提到了OpenAI Whisper、Hugging Face Transformers (Seq2SeqTrainer)、LibriSpeech、Faker、Coqui TTS、CosyVoice、GPT-4o。 总结:论文中未提及任何开源计划。 📌 核心摘要 要解决什么问题:随着自动语音识别(ASR)系统的广泛应用,其无意中转录用户的敏感或私人信息引发了严重的隐私担忧。现有的隐私保护方法多为后处理,难以在保护隐私和维持转录效用之间取得良好平衡。 方法核心是什么:本文提出了一种名为“保护性声学触发”(Protective Acoustic Triggering, PAT)的新方法。其核心是在音频输入中前置一个由双音合成的高频声学触发信号,并通过微调ASR模型(如Whisper),使其在检测到该触发信号时,自动将后续语音内容替换为特殊的<REDACTED>令牌,从而实现内置的、用户可控的隐私编辑。 与已有方法相比新在哪里:传统方法(如差分隐私、后处理过滤)是被动且滞后的。本文的创新在于:1) 范式转化:首次将用于攻击的声学对抗触发器,重新定义为一种主动的、防御性的隐私控制机制。2) 用户可控:触发器作为显式控制信号,让用户能实时、灵活地开启或关闭隐私保护模式。3) 端到端嵌入:将隐私意识直接嵌入ASR模型内部,而非依赖外部模块。 主要实验结果如何:在句子级编辑任务中,Whisper-small模型达到了99.47%的编辑成功率(RSR)。在更精细的短语级编辑任务中,该模型成功保护了97.7%的测试样本(即其中超过一半的敏感短语被编辑),对敏感短语的保护精度(PRA)为90.6%,同时在非敏感内容上的词错误率(WER)仅为10.9%,接近基线水平。关键实验结果如下: 模型 RSR (%) (句子级) WER (句子级) SRP (%) SRR (%) RSRp (%) PRA (%) WER (短语级) Whisper-tiny 98.70 10.2 92.8 90.4 96.4 86.2 11.1 Whisper-base 99.00 9.8 94.5 93.9 97.1 88.3 10.5 Whisper-small 99.47 9.6 95.3 94.2 97.7 90.6 10.9 实际意义是什么:该工作为构建隐私感知的ASR系统提供了一种新的思路。它赋予了用户对自身语音数据转录行为的显式控制权,有望应用于智能音箱、实时字幕、医疗/法律语音记录等对隐私敏感的场景,平衡了服务便利性与隐私安全。 主要局限性是什么:1) 模型与数据规模验证有限:实验仅在Whisper的tiny、base、small三个较小模型上进行,且使用了大量合成数据,其在更大、更强的ASR模型及真实、复杂对话数据上的有效性和鲁棒性尚未可知。2) 触发信号鲁棒性存疑:论文承认高频触发信号可能被简单的滤波器过滤或自然噪声干扰,其实际部署的可靠性面临挑战。3) 评估场景单一:评估基于朗读或合成语音,未涉及自发对话、多人重叠、远场拾音等更现实的复杂声学环境。 🏗️ 模型架构 论文描述了一种基于现有Whisper模型的微调方案,而非设计全新架构。其核心思想是在模型的输入和输出端分别进行适配,以学习“触发信号 -> 编辑行为”的映射。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 190 words

Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation

📄 Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation #音频安全 #扩散模型 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #扩散模型 | #对抗样本 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuxuan Liu(未明确标注,按署名顺序为首位) 通讯作者:未明确标注 作者列表:Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li(均来自Xi’an Jiaotong-Liverpool University, Suzhou, China) 💡 毒舌点评 亮点:首次系统性地将成员推断攻击聚焦于音乐扩散模型,并聪明地将对抗鲁棒性差异转化为Membership Inference的信号,其提出的LSA-Probe在低误报率关键指标上取得了显著且一致的提升。 短板:攻击方法依赖于多轮二分搜索和PGD优化,计算开销巨大,这使其在现实世界中作为大规模审计工具的可行性大打折扣;同时,攻击效果的绝对数值(例如DiffWave上最高的20% TPR@1%FPR)距离“可靠”的审计标准仍有相当差距。 🔗 开源详情 代码:论文提供了项目Demo的GitHub仓库链接:https://github.com/kaslim/LSA-Probe。 模型权重:论文中未提及是否公开DiffWave和MusicLDM的模型权重。 数据集:论文使用了公开数据集MAESTRO v3和FMA-Large,但未说明其预处理脚本是否开源。 Demo:未提及在线演示。 复现材料:论文提供了核心超参数(K, r, β, τ=P95等)、评估协议和部分实现细节。但未提供完整的训练细节、配置文件、检查点。 论文中引用的开源项目:DiffWave [13], MusicLDM [1]。攻击基线中的SecMI [22]等可能也依赖开源实现。 📌 核心摘要 问题:扩散模型在音乐生成中表现出色,但其训练数据可能涉及版权与隐私问题。如何有效判断一段特定的音乐片段是否被用于训练某个音乐扩散模型(成员推断攻击,MIA),成为审计生成式音乐模型合规性的关键挑战。传统基于损失信号的MIA方法在音频领域效果不佳。 方法核心:本文提出Latent Stability Adversarial Probe(LSA-Probe),一种白盒攻击方法。其核心思想是:训练集中的“成员”样本位于模型生成流形的更稳定区域。该方法通过测量在反向扩散过程的中间潜状态中,使生成质量下降到一个固定感知阈值所需的最小归一化扰动预算(对抗成本)来评估这种稳定性。成员样本需要更大的扰动成本才能被降质。 创新点:与已有工作相比,LSA-Probe放弃了单一的端点重建损失信号,转而探测沿生成轨迹的动态几何稳定性。它是首个针对音乐扩散模型(包括波形DDPM和潜扩散模型LDM)的系统性MIA研究,并建立了局部生成稳定性与成员身份之间的联系。 主要结果:在DiffWave和MusicLDM两个模型,以及MAESTRO v3和FMA-Large两个数据集上的实验表明,在匹配计算量的前提下,LSA-Probe在低误报率(FPR=1%)下的真阳性率(TPR)比最佳基线方法高3-8个百分点。例如,在DiffWave/MAESTRO上,TPR@1%FPR从0.12提升至0.20。消融实验显示,中段扩散时间步、中等扰动预算以及感知度量(CDPAM/MR-STFT)的效果最优。 实际意义:为音乐版权持有者和审计方提供了一种潜在的技术工具,用于检测AI音乐生成模型是否未经授权使用了其作品进行训练,有助于规范生成式AI的发展。 主要局限性:攻击方法计算成本高(涉及多次PGD优化和反向传播);其有效性阈值(如TPR@1%FPR)虽有提升,但绝对值仍不高,在需要极低误报率的严格审计场景下实用性受限;评估模型和数据集范围有限。 🏗️ 模型架构 本文未提出新的生成模型架构,而是针对现有音乐扩散模型(DiffWave和MusicLDM)设计一种成员推断攻击方法。因此,架构描述主要围绕LSA-Probe攻击框架的流程。 LSA-Probe是一个双层循环优化过程(图1): ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 235 words

PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples

📄 PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples #语音匿名化 #对抗样本 #说话人识别 #语音合成 #隐私保护 ✅ 7.0/10 | 前25% | #语音匿名化 | #对抗样本 | #说话人识别 #语音合成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Shiqi Zhou(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) 通讯作者:Lingcui Zhang(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) 作者列表: Shiqi Zhou(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) Jiayu Li(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) Jiangyi Deng(浙江大学电气工程学院) Lingcui Zhang(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) Jin Cao(西安电子科技大学网络与信息安全学院) Ben Niu(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) 💡 毒舌点评 这篇论文精准地抓住了现有语音对抗防御研究“各自为战”的痛点,提出了一个“一石二鸟”的统一防御框架(PRSA),实验设计也相当全面,同时对抗ASV和TTS多个系统。然而,其核心创新——“同时防御”更多是目标设定上的新颖,而非技术手段上的革命性突破,且代码未开源让其声称的优越性能打了折扣,读者很难直接验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验使用公开数据集LibriSpeech, VCTK, TIMIT,但论文未说明其具体获取或预处理方式。 Demo:未提及。 复现材料:论文提供了部分关键超参数(如ε, λ, β, γ, 迭代次数N),但缺乏完整的训练配置、数据处理流程和核心模块实现代码。 论文中引用的开源项目:提及了使用的开源模型/系统:X-VECTOR, ECAPA-TDNN, WavLM, Unispeech-SAT, YourTTS, SV2TTS, Tortoise, StyleTTS2, AdaIN, Whisper。但这些并非作者为本项目提供的开源材料。 📌 核心摘要 问题:当前利用对抗样本保护语音隐私的方法存在缺陷,要么只能防御自动说话人验证(ASV),要么只能防御文本到语音(TTS)合成攻击,缺乏一种能同时有效防御两者的综合方案。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 312 words

RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack

📄 RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack #音频安全 #对抗样本 #语音克隆 #语音合成 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音克隆 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Seungmin Kim(松石大学, Soongsil University) 通讯作者:Daeseon Choi(松石大学, Soongsil University, sunchoi@ssu.ac.kr) 作者列表:Seungmin Kim(松石大学)、Dain Kim(松石大学)、Sohee Park(松石大学)、Daeseon Choi(松石大学)。论文指出Seungmin Kim和Dain Kim为共同第一作者。 💡 毒舌点评 RoCo巧妙地将主动防御的“战场”从脆弱的波形域转移到结构更稳定的编解码器潜在空间,并利用STE优雅地解决了离散优化问题,这是一个在架构层面令人耳目一新的设计。然而,该防御策略本质上是针对特定语音合成管线的“寄生式”扰动,其长期有效性高度依赖于攻击模型编解码器的结构稳定性,一旦遇到更强的自适应净化攻击或完全不同的合成架构,其鲁棒性承诺就可能大打折扣。 🔗 开源详情 代码:论文中提供了项目主页链接 (https://smerge0802.github.io/RoCo/),该页面可能包含演示音频样本。但未提及任何公开的代码仓库(如GitHub)。 模型权重:未提及公开的预训练模型权重(包括编解码器模型和优化好的扰动码)。 数据集:论文中使用的多个数据集(VCTK, LibriSpeech等)是公开的,但论文未说明RoCo训练数据的具体情况及获取方式。 Demo:提供了在线演示页面,可试听防御前后的语音样本。 复现材料:给出了方法的整体框架和损失函数公式,但缺失关键实现细节:扰动码本大小N_P、两阶段优化阈值τ的具体数值、说话人编码器g(·)在优化时的具体选择、优化器、学习率、训练步数等。 论文中引用的开源项目:引用了多个作为攻击和基线防御的开源项目,例如:SV2TTS(Real-time voice cloning), YourTTS, AttackVC, AntiFake, VoiceGuard, DeepFilterNet, MP-SENet, De-antifake, ECAPA-TDNN, Resemblyzer, NISQA等。 开源计划:论文中未明确提及未来的开源计划。 📌 核心摘要 本文提出RoCo,一种基于神经音频编解码器(Neural Codec)的主动防御方法,旨在解决语音克隆攻击。该方法面临两大核心问题:1)现有防御注入的扰动易被语音增强技术去除;2)生成防御语音的速度过慢,不实用。RoCo的核心方法是:不在原始音频上直接添加扰动,而是在编解码器提取的离散潜在码序列后,额外追加一个专门优化的扰动码(Perturbation Code)。该扰动码使用直通估计器(STE)进行梯度优化,以干扰攻击模型中的说话人编码器。为平衡防御强度和音质,RoCo采用两阶段损失优化策略:先优化目标损失(Target Loss)以最大化防御效果,当扰动码强度达到阈值后,切换为信噪比损失(SNR Loss)以修复音质。与AntiFake、AttackVC、VoiceGuard等基线方法相比,RoCo在多个攻击模型(SV2TTS, YourTTS, AVC)和验证模型(ECAPA, ResNet, RSZ)上取得了更高的防御成功率(DSR)。更重要的是,经语音增强(如Spectral Masking, DeepFilterNet, MP-SENet)后,RoCo的DSR平均下降约15%,而基线方法平均下降约38%,表现出更强的鲁棒性。同时,RoCo生成防御语音的速度显著快于基线(例如在AVC模型上仅需13秒,而基线需要40-122秒)。该工作的实际意义在于提供了一种更快速、更抗干扰的语音隐私主动保护方案。其主要局限在于:方法的防御效果依赖于目标攻击模型采用的特定编解码器架构;论文未评估面对自适应净化攻击或更强大攻击模型时的性能。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 522 words

Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent

📄 Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent #对抗样本 #文本分类 #机器翻译 #数据增强 #大语言模型 ✅ 7.0/10 | 前25% | #对抗样本 | #数据增强 | #文本分类 #机器翻译 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yangshijie Zhang† (Lanzhou University) 通讯作者:Xingxing Jia⋆ (Lanzhou University, jiaxx@lzu.edu.cn) 作者列表: Yangshijie Zhang† (Lanzhou University) Xinda Wang† (Peking University) Jialin Liu (Peking University) Wenqiang Wang (Sun Yat-sen University) Zhicong Ma (Lanzhou University) Xingxing Jia⋆ (Lanzhou University) 机构:兰州大学、北京大学、中山大学 💡 毒舌点评 亮点:选题角度刁钻且极具现实意义,将社交媒体上常见的“花式字体”转化为对AI系统的武器,这种“社会工程学+技术漏洞”的结合方式颇有新意,且实验结果确实亮眼。短板:论文对“为什么这些字体能骗过LLM”的机制分析略显肤浅(仅提及“过度解释”),更像是一个现象观察和应用展示,理论贡献深度有限;同时,一个声称“即插即用”的框架却没有开源代码,让其宣称的“实用价值”打了折扣。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 512 words

When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models

📄 When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models #音乐生成 #模型评估 #自回归模型 #音频大模型 #对抗样本 ✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiaosha Li (Georgia Institute of Technology) 通讯作者:未说明(根据惯例,最后一位作者Ziyu Wang可能为通讯作者,但论文中未明确标注) 作者列表:Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)) 💡 毒舌点评 亮点在于发现了一个反直觉但可重复验证的现象(“噪声降低损失”),并据此提出了一个新颖的、基于损失曲线形状的评估视角,而非简单否定损失指标,这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于,论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动,其与真实音乐质量(如乐感、结构、情感表达)的关联性仍需更多元、更贴近实际场景的验证,且提出的“基于曲线形状”的评估框架目前更多是定性描述,缺乏可直接应用的定量标准。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 306 words

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频安全 #数据增强 #音频大模型 #多模态模型 #对抗样本 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,因名字在前) 通讯作者:Amir Houmansadr(推断,因名字在后且通常为资深作者) 全部作者:Jaechul Roh, Amir Houmansadr 所属机构:University of Massachusetts Amherst, Department of Computer Science 💡 毒舌点评 亮点:论文像一把精准的手术刀,首次剖开了音频大模型“良性微调”外表下的安全脆弱性,揭示了其与文本/视觉模态截然不同的、由编码器架构决定的“阿喀琉斯之踵”,研究问题抓得准,分析框架设计得妙。槽点:提出的防御方法(远距离过滤和系统提示)虽然有效但略显“直球”,缺乏对模型内部拒绝机制更深入的干预探索,算是给后续研究者留了口饭吃。 🔗 开源详情 代码:论文明确提及在GitHub上发布了代码(“Report GitHub Issue”),用于复现邻近度过滤和实验。 数据集:论文提及发布了用于实验的良性音频数据集和有害音频提示集(经过TTS转换)。 模型权重:论文研究的是三个已公开的SOTA模型(AF3, Kimi-Audio, Qwen2.5-Omni),未发布其微调后的权重,以防止滥用。 在线Demo:未提及。 依赖的开源工具:使用了多个开源模型和工具,包括:Whisper系列编码器、Sentence-BERT、WavLM、LoRA微调框架、Edge-TTS、Google TTS (gTTS)等。 📌 核心摘要 这篇论文首次系统研究了良性(无害)音频数据微调对音频大模型安全对齐的破坏作用。要解决的问题是:用户出于提升模型性能目的进行的常规微调,是否会无意中破坏模型的安全防护?方法上,作者提出了一个基于嵌入空间邻近度的过滤框架,从语义、声学及混合维度,选择性地用与有害内容在表示空间上相近的良性音频进行微调。主要发现是,即使微调数据完全良性,也能使越狱成功率(JSR)从个位数飙升至87.12%,且主导的脆弱性维度(语义或声学)取决于模型编码器的架构。实际意义在于揭示了Audio LLMs一个非对抗性、易被忽视的重大安全风险,并提出了两种无需修改架构的实用防御策略(训练时远距离过滤和推理时安全系统提示)。局限性在于研究限于英语单轮对话,未探索非语音音频任务或多语言场景。 🏗️ 模型架构 论文本身并非提出新模型,而是分析三个现有的SOTA音频大模型在微调下的安全行为。因此,模型架构部分描述的是被分析的三个目标模型: Audio Flamingo 3 (AF3):架构为 Whisper音频编码器 -> 2层MLP投影器 -> Qwen2.5-7B LLM骨干(28层)。其关键特点是MLP投影器会压缩音频特征,形成一个与文本对齐空间不同的表示区域。 Kimi-Audio 7B:采用双编码器设计,包含WhisperVQ编码器(通过矢量量化瓶颈,会丢弃部分声学细节)和Whisper-Large-V3编码器。音频信息通过这两个编码器处理后输入LLM。 Qwen2.5-Omni 7B:架构为Whisper-Large-V3编码器 -> 直通(pass-through)-> Qwen2.5-7B Thinker模块。其编码器输出几乎不加修改地传递给LLM,保留了更多的音频-文本对齐信息。 数据流动与关键设计:在所有三个模型中,音频编码器在微调期间是冻结的,只有LLM骨干网络通过LoRA进行参数更新。这是与文本LLM微调的关键区别:在音频LLM中,安全对齐所依赖的表示(来自编码器)并未被微调直接修改,但下游LLM的决策边界却发生了偏移。 ...

2026-04-22 · 更新于 2026-06-12 · 2 min · 277 words

语音/音乐/音频论文速递 2026-04-22

语音/音乐/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-06-12 · 8 min · 1620 words

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频大模型 #模型评估 #对抗样本 #基准测试 #音频安全 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,基于论文作者顺序和邮箱前缀) 通讯作者:Amir Houmansadr(麻省大学阿默斯特分校,计算机科学系) 其他作者:无(本文为双作者论文) 所属机构:University of Massachusetts Amherst(麻省大学阿默斯特分校),计算机科学系。 💡 毒舌点评 亮点:这篇论文像一把精准的手术刀,首次剖开了音频大模型“安全对齐”的脆弱内脏——原来不用投毒,光喂“健康食品”(良性数据)就能让它对“坏指令”言听计从。其“邻近性分解”框架巧妙地将模糊的“相似”拆解为“说了啥”和“听着像啥”,并发现这居然取决于模型“耳朵”(编码器)的构造,洞察深刻。 槽点:研究聚焦于英语单轮问答,像是在无菌实验室里测试病毒的威力,现实世界中多语言、多轮次、带背景噪音的“培养皿”会怎样?防御手段(系统提示)虽有效,但像个事后补的“道德补丁”,模型本身的“先天缺陷”如何从架构上根治? 🔗 开源详情 代码:论文提及提供了GitHub仓库(https://github.com/…),但未在正文给出完整链接。推测包含用于邻近性过滤和实验复现的代码。 模型权重:论文中评估的三个模型(AF3, Kimi-Audio, Qwen2.5-Omni)均为公开的SOTA模型,其预训练权重可在Hugging Face等平台获取。微调后的模型权重未提供,以防滥用。 数据集:使用的良性数据集(SD-QA, GC Accents, MMSU, MELD)和有害数据集(AdvBench, SafetyBench)多为公开基准。论文未提及发布新数据集。 预训练权重:未提供,依赖于上述公开模型。 在线Demo:未提及。 引用的开源项目:依赖的主要开源工具/模型包括:Whisper (编码器), Sentence-BERT, WavLM, Hugging Face Transformers库, LoRA实现等。 📌 核心摘要 这篇论文首次系统研究了良性音频数据微调对音频大模型安全对齐的破坏性影响。核心问题是:用户出于提升性能的目的,在完全无害的音频数据上微调模型,是否会意外削弱其拒绝有害指令的能力?作者提出了一个基于嵌入空间邻近性的过滤框架,通过计算良性音频与有害音频在模型内部或外部参考编码器空间中的距离,来选择性地构建微调数据集。实验在三个SOTA模型上进行,发现:1)良性微调能显著提升越狱成功率,在邻近性过滤下,JSR从个位数飙升至87.12%;2)主导的脆弱性轴(语义或声学)是架构依赖的,由音频编码器如何将声音映射到LLM输入空间的方式决定;3)防御是可行的,通过“远距离过滤”训练数据或在推理时添加安全系统提示,可将JSR降至近零。研究揭示了音频大模型安全与文本/视觉模型的结构性差异,强调了模态感知的安全评估和数据筛选的必要性。 🏗️ 模型架构 论文本身并未提出新模型,而是对三个现有SOTA音频大模型进行安全分析。其整体分析流程和涉及的模型架构如下: 输入:原始音频波形。 音频编码器(冻结):将波形转换为高级表示。 Audio Flamingo 3 (AF3):使用Whisper编码器,后接一个两层MLP投影器,将音频特征压缩后输入LLM。 Kimi-Audio-7B:采用双编码器设计,包含一个WhisperVQEncoder(通过矢量量化引入瓶颈)和一个Whisper-Large-V3编码器。 Qwen2.5-Omni:使用Whisper-Large-V3编码器,其输出以“直通”方式(无压缩投影)输入LLM。 大语言模型(部分参数通过LoRA微调):接收音频编码器的输出(可能经过投影),生成文本响应。三个模型的LLM骨干均基于Qwen2.5-7B。 输出:文本形式的回答(可能包含拒绝信息或有害内容)。 安全对齐:模型在预训练后经过安全对齐训练,使其能拒绝有害文本指令。这种对齐主要针对文本表示空间,对音频输入产生的表示可能覆盖不足。 数据流:音频 → [冻结的音频编码器] → [可选的投影层] → [LLM(部分参数通过LoRA更新)] → 文本输出。 关键设计选择:论文的核心发现在于,不同音频编码器架构(压缩式、量化瓶颈式、直通式)决定了良性微调数据在嵌入空间中的“邻近性”如何影响安全边界,从而导致了差异化的安全脆弱性。 ...

2026-04-21 · 更新于 2026-06-12 · 2 min · 230 words

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情 代码:论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建,但截至论文发布时可能尚未完全公开。 模型权重:未提及发布攻击模型权重。攻击针对的是现有的开源LALM。 数据集:论文中使用的音频数据来自公开基准(AirBench, VoiceBench)。用于训练攻击的辅助用户指令数据集可能随代码一起发布。 音频样本:提供在线试听链接:https://audiohijack.github.io。 在线Demo:未提及。 依赖的开源项目:攻击实现依赖于PyTorch等框架,以及被攻击的各个开源LALM的官方代码库(如Qwen2-Audio, GLM-4-Voice等)。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 ...

2026-04-19 · 更新于 2026-06-12 · 3 min · 430 words