Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks

📄 Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks #生成对抗网络 #对抗样本 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #生成对抗网络 | #生成对抗网络 | #对抗样本 | arxiv 👥 作者与机构 Sameek Bhattacharya, Bharath Krishnamurthy, Ajita Rattani Dept. of Computer Science and Engineering, University of North Texas, Denton, Texas, USA 💡 毒舌点评 论文核心idea很讨巧:把DAC这个音频领域的“瑞士军刀”(本来是做编解码的)拿来当攻击者的武器,利用其连续的潜空间来生成扰动。这确实比在高维波形上直接“硬碰硬”的迭代优化快了几个数量级,实验数据上速度优势明显。但作者的分析像是急着发新闻稿,深挖不足:为什么这个潜空间就特别适合生成对抗样本?是几何特性还是压缩带来的语义保真?没说清楚。实验只用了一个16kHz的DAC,泛化性存疑。更关键的是,对抗样本的“灵魂”——听不出来(感知质量)和能迁移(黑盒攻击)——完全没验证。论文给人感觉是“我们很快,而且成功率看起来不错”,但距离一篇扎实的、分析透彻的顶会论文还差得远,更像是一个有趣的工程验证。 ...

2026-06-23 · 更新于 2026-07-02 · 3 min · 435 words

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜(83 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分 前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分 前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分 前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分 前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分 前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分 前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分 前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分 前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分 前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分 前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分 前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分 前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分 前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分 前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分 前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分 前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分 前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分 前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分 前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分 前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分 前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分 前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分 前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分 前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分 前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分 前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分 前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分 前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分 前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分 前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分 前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分 前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分 前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分 前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分 前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分 前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分 前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分 前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分 前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分 前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分 前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分 前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分 前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分 前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分 前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分 前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分 前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分 前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分 前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分 前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分 前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分 前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分 前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分 前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分 前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分 前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分 前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分 前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分 前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分 前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分 前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分 前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分 前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分 前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分 前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分 前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分 前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分 前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分 前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分 前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分 前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分 前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分 前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分 前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分 前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分 前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分 前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分 前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分 前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分 后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分 后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分 后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分 后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-23 · 更新于 2026-07-02 · 48 min · 10123 words

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

📄 Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks #语音识别 #对抗样本 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 9.2/10 | 前25% | #语音识别 | #对抗样本 | #多模态模型 | arxiv 👥 作者与机构 Jiani Xie, University of Melbourne Andrew C. Cullen, University of Melbourne Paul Montague, DST Group Benjamin I. P. Rubinstein, University of Melbourne ...

2026-06-08 · 更新于 2026-07-02 · 3 min · 440 words

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-07-02 · 23 min · 4800 words

Codec-Robust Attacks on Audio LLMs

📄 Codec-Robust Attacks on Audio LLMs #音频安全 #对抗样本 #语音大模型 #音频编码 #模型评估 #神经音频编解码器 🔥 8.3/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #音频编码 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Jaechul Roh(University of Massachusetts Amherst) 通讯作者:Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research) 作者列表:Jaechul Roh(University of Massachusetts Amherst),Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research),Amir Houmansdar(University of Massachusetts Amherst) 💡 毒舌点评 本文洞察非常漂亮:与其在被编解码器抛弃的波形空间里做无用功,不如直接在编解码器自己的“心窝子”(潜在空间)里做手脚,让压缩过程反而成了攻击的帮凶。但“白盒访问编解码器和模型”的威胁模型假设很强,现实中大多数攻击者未必有这种权限,论文对此的辩护略显不足,其宣称的“实用威胁”可能被高估。 📌 核心摘要 解决问题:现有针对音频大语言模型的对抗攻击在经过现实中的有损编解码器(如Opus, MP3)压缩后会失效,而有损压缩曾被认为是有效的防御机制。本文旨在证明这种防御并不可靠,并提出一种能抵抗压缩的攻击方法。 方法核心:提出CodecAttack,核心在于将对抗扰动直接优化在神经音频编解码器(如EnCodec)的连续潜在空间中,而非波形空间。因为该空间正是编解码器设计上要保留的部分,所以扰动能自然地“穿过”压缩通道。同时,采用多比特率的Straight-through Expectation-over-Transformation(EoT)训练策略,使扰动能抵抗各种比特率的压缩。 与已有方法相比新在哪里:这是首个同时满足“外部攻击”(不修改受害者模型)和“编解码器鲁棒”这两个关键条件的攻击方法。已有波形攻击无法抵抗压缩,而内部表示攻击(如修改编码器状态)则要求修改模型本身。本文通过改变扰动空间,将“防御通道”转化为“攻击通道”。 主要实验结果:在三个部署场景(金融、面试筛选、音乐版权)和三个目标模型上,使用Opus在64-192kbps下评估,平均攻击成功率(ASR)达到85.5%。而使用相同EoT策略训练的波形基线攻击在任何比特率下ASR均不超过26%。攻击还能迁移到未见过的编解码器,在MP3上达到最高100% ASR,在AAC-LC上最高84% ASR。关键对比数据见下表(摘自论文表2,场景S1,模型Qwen2-Audio, SNR≈5.8dB): 比特率 潜在空间攻击 (ASR%) 波形基线攻击 (ASR%) Opus 64 kbps 80.0 24.0 Opus 128 kbps 88.0 26.0 MP3 128 kbps (held-out) 88.0 24.0 实际意义:揭示了被广泛视为安全防御的音频有损压缩,实际上可以被针对性的攻击利用。这直接威胁到所有通过编解码器管道传输音频的语音助手、内容审核系统等部署。 主要局限性:1)攻击需要针对特定目标模型优化,跨模型迁移性未展示;2)威胁模型假设攻击者拥有白盒访问权限;3)主要评估数字音频通道,未考虑物理声学(扬声器-麦克风)通道。 🔗 开源详情 代码:论文中未提及代码链接。论文在结论部分提到“代码和检查点将在未来发布”,但未提供具体URL。 模型权重:论文中未提及具体链接。论文攻击了三个开源模型:Qwen2-Audio-7B-Instruct, Audio Flamingo 3 (AF3), 和 Qwen2.5-Omni。这些模型通常可在Hugging Face等平台找到,但论文本身未提供直接获取链接。 数据集:论文中未提及数据集公开链接。论文构建了三个评估场景(金融语音代理、面试筛选、音乐行业检测)的自有评估数据集,但未说明其公开获取方式或开源协议。 Demo:论文中未提及。 复现材料:论文中未提及独立的复现材料(如训练配置、检查点下载)。论文正文和附录(如Algorithm 1, Appendix I)详细描述了实验设置和算法细节,构成了复现的理论依据。 论文中引用的开源项目: EnCodec: https://github.com/facebookresearch/encodec Mimi: https://github.com/kyutai-labs/mimi DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec PyTorch: https://github.com/pytorch/pytorch (论文中作为深度学习框架使用) Adam优化器: 是PyTorch等框架中的标准优化器,未单独列出链接。 🏗️ 方法概述和架构 本文提出的CodecAttack是一个在神经音频编解码器潜在空间中优化对抗扰动的攻击框架,旨在生成能抵抗有损压缩的对抗性音频。其核心流程如图1所示。 ...

2026-05-21 · 更新于 2026-07-02 · 3 min · 429 words

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yanyun Wang 通讯作者:未在论文中明确指定 作者列表:Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu(所有作者所属机构信息未在论文正文中提供,仅在作者姓名下方列出,未明确给出具体机构名称) 💡 毒舌点评 本文的核心亮点是提出了一个范式级别的创新——“声学干扰”,巧妙地将攻击载荷从“恶意音频内容”解耦,利用生成模型先验中的良性声学特征作为通用触发器,这思路极具启发性且实验验证充分。然而,一个必须严肃质疑的根本问题是:整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么,AIA对目标LALM的“通用性”是否隐含了一个关键假设,即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性?如果目标LALM的音频处理架构与Bark差异巨大,这种“声学干扰”的迁移性还能成立吗?论文对此核心假设缺乏深入的理论或实验讨论,使得“通用性”的宣称打了折扣。此外,所有评估严重依赖GPT-4o作为裁判,尽管引入了外部模型验证,但“运动员兼裁判”的风险依然存在。 📌 核心摘要 问题:现有针对大音频语言模型(LALM)的越狱攻击范式(优化语义、控制声学参数、添加扰动)都将恶意音频内容作为攻击载荷,存在效率低、耦合性强等根本局限。本文挑战了这种必要性。 方法核心:提出“声学干扰”新范式和“声学干扰攻击”(AIA)。核心是利用特定的“声学潜在语义”(ALS)——从生成模型(Bark)先验中挖掘的、内容良性的内在副语言特征——作为通用触发器,干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现,无需实例特定优化。两阶段攻击流程:先尝试纯文本越狱,若失败则从ALS库中依次选取音频与文本组合查询。 创新点:首次发现并定义“声学干扰”现象;提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA;通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制;构建了可解释的12维ALS索引系统。 实验结果:在10个LALM(7开源,3闭源)和5个数据集上验证了AIA的有效性。以表2为例,在JBB数据集上,AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%,对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中(表3),AIA在多个模型上取得了SOTA或接近SOTA的攻击效果,且查询开销相对较低。 实际意义:揭示了当前LALM跨模态安全对齐的根本性脆弱性,即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。 局限性:攻击有效性高度依赖于作为代理模型的Bark;未探讨防御策略;部分基线对比数据来自不同评测标准(JALMBench的宽松评分)。 🔗 开源详情 代码:https://flaai.github.io/AIA_page 模型权重:论文中未提及 数据集: JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为:https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为:https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为:https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/HarmBench。 Demo:论文中未提及在线演示链接,但提供了项目主页 https://flaai.github.io/AIA_page。 复现材料:论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。 论文中引用的开源项目: Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名,链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型,无开源链接。 🏗️ 方法概述和架构 整体流程概述:本文提出的声学干扰攻击(AIA)是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示(text jailbreak)和目标LALM。第一阶段(文本测试),系统先用原始文本多次查询LALM;若文本本身未能成功越狱,则进入第二阶段(音频干扰),从预构建并排序的通用声学干扰音频库(ALS武器库)中依次选取音频,与文本组合成多模态查询,直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

2026-05-19 · 更新于 2026-07-02 · 3 min · 615 words

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

📄 Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs #对抗样本 #多模态模型 #模型评估 #预训练 ✅ 6.5/10 | #对抗样本 #多模态模型 | arxiv 👥 作者与机构 第一作者:Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University) 通讯作者:未说明 作者列表:Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University)、Yiqun Sun (Magellan Technology Research Institute (MTRI))、Pengfei Wei (Magellan Technology Research Institute (MTRI))、Lawrence B. Hsieh (Magellan Technology Research Institute (MTRI))、Daisuke Kawahara (Waseda University) 💡 毒舌点评 亮点在于提出了一种简洁、即插即用的VLM对抗防御框架,通过SAE的重建目标隐式学习攻击特征的思路有一定启发性,且实验设计(跨域、跨攻击设置)较为全面。短板在于核心insight“重建目标能隐式捕捉攻击信号”的理论解释或可视化证据不足,更像是一个经验性发现;此外,与最前沿的VLM攻击防御方法对比不足,部分实验(如只用SSA-CWA生成攻击特征)可能限制了结论的普适性。 📌 核心摘要 解决的问题:视觉-语言模型(VLMs)在面对对抗性攻击时极其脆弱,现有检测方法缺乏对最新、最强攻击的评估,且在跨域、跨攻击等现实场景下鲁棒性不足。 方法核心:提出SAEgis,一种基于稀疏自编码器(SAE)的即插即用检测框架。将SAE插入预训练VLM(如Qwen2.5-VL)的视觉编码器或投影层,仅用重建目标训练。利用少量对抗样本,通过计算每个稀疏特征的“攻击得分”来选出“攻击相关特征”。在推理时,计算输入图像触发的攻击相关特征数量,若超过基于干净数据校准的阈值,则判定为对抗样本。 与已有方法相比新在哪里:首次将SAE作为即插即用模块用于VLM对抗检测,无需对抗训练。方法基于特征激活模式而非重建误差或额外分类器,设计更轻量、通用。通过多层SAE信号集成,有效融合了低级纹理和高级语义中的攻击特征。 主要实验结果:在NIPS17、LLaVA、Medical三个数据集上,针对SSA-CWA、M-Attack、FOA-Attack三种攻击进行评估。SAEgis(集成版)在跨域设置下平均F1达到94.4%,显著优于Dense (Ensemble) 的82.2%和PIP的79.4%。在跨攻击设置下,单层SAE(vision-block0)也能保持较高F1(~89.7%),但集成后性能更稳定(F1 >93%)。 实际意义:为提升现实世界VLM部署的安全性提供了一个轻量、实用且易于集成的防御组件,尤其在域偏移和未知攻击下表现出良好鲁棒性。 主要局限性:攻击相关特征的“攻击得分”计算基于简单均值差,对分布漂移敏感;阈值校准仅依赖干净数据,在跨域测试时可能导致性能下降(如图5所示的失败案例);方法评估仅限于“描述图像”这一任务,对VLM其他功能的泛化性未知。 🔗 开源详情 代码:https://github.com/conan1024hao/SAEgis 模型权重:论文中未提及具体的模型权重链接。论文指出将使用 Qwen2.5-VL-3B-Instruct (Bai et al., 2025b) 作为骨干VLM,并将在论文发表后释放所有预训练的SAE权重 (“All pretrained SAE weights will be released upon publication”)。 数据集:论文中使用了以下数据集,但未提供直接的下载链接。数据集获取方式需参考原始论文或官方发布渠道。 NIPS17 (K et al., 2017) - 自然图像数据集。 LLaVA-Instruct-150K (Liu et al., 2023) - 自然图像数据集。 Medical Multimodal Evaluation Data (Chen et al., 2024b) - 医学图像数据集,用于域外评估。 FineVision (Wiedmann et al., 2025) - 用于预训练SAE模块。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及具体的训练脚本、配置文件或预训练检查点链接。但论文详细描述了实现细节(第4.2节),包括: 骨干模型:Qwen2.5-VL-3B-Instruct。 SAE训练数据:使用 FineVision 数据集,训练500k样本。 SAE超参数:批大小16,学习率5e-5,潜在维度32768,稀疏度Top-K=64。 实验超参数:选择Top-K=256个攻击相关特征,检测阈值由干净验证集上假阳性率α=0.02确定。 具体层位置:实验确定了 vision-block0, vision-block10 和 projection-mlp2 是最佳SAE插入点。 论文中引用的开源项目:论文中引用了以下开源项目/工具,但未在正文中提供其官方链接(链接仅存在于参考文献列表中,未在此列出): VLM模型:CLIP (Radford et al., 2021), BLIP (Li et al., 2022), MiniGPT-4 (Zhu et al., 2023), Qwen2.5-VL-3B-Instruct (Bai et al., 2025b)。 扩散模型:Stable Diffusion (Rombach et al., 2022), 用于MirrorCheck方法。 数据集:LAION-400M (Schuhmann et al., 2021), 用于AnyAttack方法训练。 攻击方法:SSA-CWA (Dong et al., 2023), AttackVLM (Zhao et al., 2023), AdvDiffVLM (Guo et al., 2024), AnyAttack (Zhang et al., 2025), M-Attack (未完整引用), FOA-Attack (Jia et al., 2025)。 检测方法:MirrorCheck (Fares et al., 2024), PIP (Zhang et al., 2024), HiddenDetect (Jiang et al., 2025b), PromptGuard (Zhou et al., 2026)。 其他:SVM (Cortes and Vapnik, 1995), 用于PIP方法。 🏗️ 方法概述和架构 整体流程概述:SAEgis是一个两阶段的即插即用防御框架。第一阶段是特征选择阶段,在已知攻击类型的数据上,训练一个SAE模块并识别出与攻击最相关的稀疏特征;第二阶段是检测推理阶段,在部署时,通过监控这些攻击相关特征的激活数量来实时判断输入图像是否为对抗样本。整个系统无需修改原VLM的参数,仅在选定层旁插入一个SAE模块。 ...

2026-05-11 · 更新于 2026-07-02 · 4 min · 710 words

语音/音乐/音频论文速递 2026-05-11

语音/音乐/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜(12 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分 前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分 前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分 前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分 前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分 前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分 前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分 前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分 前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分 前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分 后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分 前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分 后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

2026-05-11 · 更新于 2026-07-02 · 9 min · 1723 words

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确区分第一作者) 通讯作者:未说明(论文未明确标注) 作者列表:Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge(论文中未提供任何作者的所属机构信息) 💡 毒舌点评 这篇论文的亮点在于通过一个巧妙的观察(梯度能量高度集中于少数token),将看似复杂的音频波形优化问题简化成了“抓关键”,提出了高效的稀疏攻击方法TAGO。但其短板也很明显:研究聚焦于“如何更高效地破坏安全”,视角相对负面;且方法的成功严重依赖于特定的超参数(如token保留率ζ)和早停策略,在真实场景的泛化能力上论证稍显不足。 📌 核心摘要 解决的问题:针对音频语言模型(ALM)的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法,这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。 方法核心:提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中,梯度能量在音频token层面上的分布,发现其高度非均匀,仅一小部分token贡献了大部分梯度能量。因此,在每次迭代中,TAGO只对梯度能量最高的前ζ比例token所对应的音频区域(receptive field)进行梯度更新,而将其他区域的梯度置零,实现稀疏优化。 创新之处:与已有方法(如SpeechGuard、AdvWave)的密集更新不同,TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别,并利用梯度的稀疏性进行自适应、token选择性的更新。此外,TAGO还设计了模型兼容的前缀模板和EOS抑制策略。 实验结果:在Qwen3-Omni, Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明,TAGO在攻击成功率上优于基线。即使将token保留率降至0.25(仅更新25%的token对应区域),在Qwen3-Omni上仍能保持86%的ASR_l(LLM判别成功率),仅比全量更新的87%下降1个百分点。同时,实验否定了“先密集优化再稀疏化”的后处理方法。 实际意义:证明了针对ALM的越狱攻击存在大量冗余更新,揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点(梯度信号分布不均)。这为攻击者提供了更高效的攻击思路,也为防御者指出了需要关注的脆弱区域(关键音频token),推动了对音频模型安全机制的深入理解。 主要局限性:攻击效果对超参数(如token保留率ζ和早停置信度ρ)较为敏感;虽然构造了模型兼容前缀,但仍属于基于特定文本前缀的约束优化,可能无法覆盖所有拒绝场景;主要评估了白盒攻击,对黑盒场景的迁移性未做探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中评估的三个模型均提供了HuggingFace链接: Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集:论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50(基于 Chao et al. (2025) 的有害指令集)和 HarmBench(Mazeika et al. (2024))。需参考相应原始论文获取。 Demo:论文中未提及。 复现材料:论文提供了详细的复现信息,包括: 对话模板(见论文附录A表5)。 拒绝词列表(见论文附录A表6)。 模型兼容的目标前缀(见论文附录A表7)。 优化超参数(如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1)。 评判模型及提示(见论文附录A中“Judge models and judge prompts”部分,包含SorryBench评判器及Gemini提示)。 论文中引用的开源项目: Whisper (语音编码器):https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频):https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406):https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型):未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型,而是一种针对已有ALM的优化攻击算法。其整体架构(流程)如图1所示: ...

2026-05-07 · 更新于 2026-07-02 · 2 min · 417 words

Dimensionality-Aware Anomaly Detection in Learned Representations of Self-Supervised Speech Models

📄 Dimensionality-Aware Anomaly Detection in Learned Representations of Self-Supervised Speech Models #语音识别 #自监督学习 #鲁棒性 #对抗样本 #模型评估 🔥 8.0/10 | 前25% | #语音识别 | #自监督学习 | #鲁棒性 #对抗样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sandra Arcos-Holzinger(University of Melbourne, School of Computing and Information Systems; Johns Hopkins University, Center for Language and Speech Processing) 通讯作者:论文中未明确标注通讯作者。 作者列表:Sandra Arcos-Holzinger(University of Melbourne, School of Computing and Information Systems; Johns Hopkins University, Center for Language and Speech Processing)、Sarah M. Erfani(Monash University, Department of Data Science and Artificial Intelligence)、James Bailey(未说明具体所属机构,可能为论文作者列表中列出的Monash University或University of Melbourne相关机构)、Sanjeev Khudanpur(Johns Hopkins University, Center for Language and Speech Processing) 💡 毒舌点评 这篇论文巧妙地将几何视角(LID)引入语音模型的鲁棒性分析,为监控模型内部状态提供了一个无需转录文本的新颖指标,实验设计扎实,对比了多种扰动和模型。然而,其核心诊断工具LID的有效性高度依赖于对“局部几何”假设的认同,且最终提出的异常检测分类器在区分高SNR对抗样本与良性噪声时性能显著下降,暗示其在实际高信噪比场景下的应用可能面临挑战。 ...

2026-05-05 · 更新于 2026-07-02 · 3 min · 458 words