神经音频编解码器

Codec-Robust Attacks on Audio LLMs

📄 Codec-Robust Attacks on Audio LLMs #音频安全 #对抗样本 #语音大模型 #音频编码 #模型评估 #神经音频编解码器 🔥 8.3/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #音频编码 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构第一作者：Jaechul Roh（University of Massachusetts Amherst）通讯作者：Jean-Philippe Monteuuis（Qualcomm Research），Jonathan Petit（Qualcomm Research）作者列表：Jaechul Roh（University of Massachusetts Amherst），Jean-Philippe Monteuuis（Qualcomm Research），Jonathan Petit（Qualcomm Research），Amir Houmansdar（University of Massachusetts Amherst） 💡 毒舌点评本文洞察非常漂亮：与其在被编解码器抛弃的波形空间里做无用功，不如直接在编解码器自己的“心窝子”（潜在空间）里做手脚，让压缩过程反而成了攻击的帮凶。但“白盒访问编解码器和模型”的威胁模型假设很强，现实中大多数攻击者未必有这种权限，论文对此的辩护略显不足，其宣称的“实用威胁”可能被高估。 📌 核心摘要解决问题：现有针对音频大语言模型的对抗攻击在经过现实中的有损编解码器（如Opus, MP3）压缩后会失效，而有损压缩曾被认为是有效的防御机制。本文旨在证明这种防御并不可靠，并提出一种能抵抗压缩的攻击方法。方法核心：提出CodecAttack，核心在于将对抗扰动直接优化在神经音频编解码器（如EnCodec）的连续潜在空间中，而非波形空间。因为该空间正是编解码器设计上要保留的部分，所以扰动能自然地“穿过”压缩通道。同时，采用多比特率的Straight-through Expectation-over-Transformation（EoT）训练策略，使扰动能抵抗各种比特率的压缩。与已有方法相比新在哪里：这是首个同时满足“外部攻击”（不修改受害者模型）和“编解码器鲁棒”这两个关键条件的攻击方法。已有波形攻击无法抵抗压缩，而内部表示攻击（如修改编码器状态）则要求修改模型本身。本文通过改变扰动空间，将“防御通道”转化为“攻击通道”。主要实验结果：在三个部署场景（金融、面试筛选、音乐版权）和三个目标模型上，使用Opus在64-192kbps下评估，平均攻击成功率（ASR）达到85.5%。而使用相同EoT策略训练的波形基线攻击在任何比特率下ASR均不超过26%。攻击还能迁移到未见过的编解码器，在MP3上达到最高100% ASR，在AAC-LC上最高84% ASR。关键对比数据见下表（摘自论文表2，场景S1，模型Qwen2-Audio， SNR≈5.8dB）：比特率潜在空间攻击 (ASR%) 波形基线攻击 (ASR%) Opus 64 kbps 80.0 24.0 Opus 128 kbps 88.0 26.0 MP3 128 kbps (held-out) 88.0 24.0 实际意义：揭示了被广泛视为安全防御的音频有损压缩，实际上可以被针对性的攻击利用。这直接威胁到所有通过编解码器管道传输音频的语音助手、内容审核系统等部署。主要局限性：1）攻击需要针对特定目标模型优化，跨模型迁移性未展示；2）威胁模型假设攻击者拥有白盒访问权限；3）主要评估数字音频通道，未考虑物理声学（扬声器-麦克风）通道。 🔗 开源详情代码：论文中未提及代码链接。论文在结论部分提到“代码和检查点将在未来发布”，但未提供具体URL。模型权重：论文中未提及具体链接。论文攻击了三个开源模型：Qwen2-Audio-7B-Instruct, Audio Flamingo 3 (AF3), 和 Qwen2.5-Omni。这些模型通常可在Hugging Face等平台找到，但论文本身未提供直接获取链接。数据集：论文中未提及数据集公开链接。论文构建了三个评估场景（金融语音代理、面试筛选、音乐行业检测）的自有评估数据集，但未说明其公开获取方式或开源协议。 Demo：论文中未提及。复现材料：论文中未提及独立的复现材料（如训练配置、检查点下载）。论文正文和附录（如Algorithm 1, Appendix I）详细描述了实验设置和算法细节，构成了复现的理论依据。论文中引用的开源项目： EnCodec: https://github.com/facebookresearch/encodec Mimi: https://github.com/kyutai-labs/mimi DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec PyTorch: https://github.com/pytorch/pytorch （论文中作为深度学习框架使用） Adam优化器: 是PyTorch等框架中的标准优化器，未单独列出链接。 🏗️ 方法概述和架构本文提出的CodecAttack是一个在神经音频编解码器潜在空间中优化对抗扰动的攻击框架，旨在生成能抵抗有损压缩的对抗性音频。其核心流程如图1所示。 ...

Acoustic Teleportation Via Disentangled Neural Audio Codec Representations

📄 Acoustic Teleportation Via Disentangled Neural Audio Codec Representations #神经音频编解码器 #语音增强 #音频场景理解 #信号处理 #解纠缠学习 ✅ 7.0/10 | 前25% | #语音增强 | #神经音频编解码器 | #音频场景理解 #信号处理学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Philipp Grundhuber（Fraunhofer Institute for Integrated Circuits (IIS), Erlangen, Germany）通讯作者：未说明作者列表：Philipp Grundhuber†（Fraunhofer Institute for Integrated Circuits (IIS)）, Mhd Modar Halimeh†,§（† Fraunhofer Institute for Integrated Circuits (IIS)；§ 现任职于Starkey Hearing Technologies）, Emanuël A. P. Habets⋆（International Audio Laboratories Erlangen） 💡 毒舌点评本文在“声学传送”这个颇具未来感的细分赛道上，用扎实的工程改进（EnCodec架构 + 多任务训练）把基线方法（Omran et al.）远远甩在了后面，消融实验和可视化分析做得相当全面。然而，一个明显的短板是它处理“传送”的极限能力不足——当两个房间的混响时间差别大于0.8秒时，输出质量就明显下降，这基本锁死了它在真实复杂声学环境中大规模应用的天花板。 ...

Modeling Strategies For Speech Enhancement in The Latent Space of a Neural Audio Codec

📄 Modeling Strategies For Speech Enhancement in The Latent Space of a Neural Audio Codec #语音增强 #神经音频编解码器 #自回归模型 #模型比较 #连续表示学习 🔥 8.0/10 | 前50% | #语音增强 | #神经音频编解码器 | #自回归模型 #模型比较学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sofiene Kammoun (CentraleSupélec, IETR (UMR CNRS 6164), France) 通讯作者：未说明作者列表：Sofiene Kammoun (CentraleSupélec, IETR (UMR CNRS 6164), France)、Xavier Alameda-Pineda (Inria at Univ. Grenoble Alpes, CNRS, LJK, France)、Simon Leglaive (CentraleSupélec, IETR (UMR CNRS 6164), France) 💡 毒舌点评本文以“教科书式”的系统性，将NAC潜空间中的几种核心建模选项（连续/离散、自回归/非自回归）像排列组合一样做了个遍，实验扎实、结论清晰，为后续研究者提供了非常明确的“避坑指南”和设计起点。然而，其所有实验仅在单一数据集（Libri1Mix）和单一编解码器（DAC）上进行，得出的“连续优于离散”等结论的普适性存疑，且未能将性能与当前主流的判别式SE方法（如Conv-TasNet）拉开决定性差距，更像是对一个新兴技术路径的初步探索而非颠覆性突破。 ...

Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization Via Neural Audio Codec and Language Models

📄 Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization Via Neural Audio Codec and Language Models #语音匿名化 #神经音频编解码器 #自回归模型 #实时处理 #知识蒸馏 ✅ 7.0/10 | 前25% | #语音匿名化 | #神经音频编解码器 | #自回归模型 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Nikita Kuzmin (南洋理工大学，新加坡科技研究局A*STAR信息通信研究院)， Songting Liu (南洋理工大学) — 论文标注为“Equal contribution”。通讯作者：未说明作者列表：Nikita Kuzmin（南洋理工大学，新加坡科技研究局A*STAR信息通信研究院）、Songting Liu（南洋理工大学）、Kong Aik Lee（香港理工大学）、Eng Siong Chng（南洋理工大学） 💡 毒舌点评这篇论文的最大亮点在于成功地将当前火热的流式神经音频编解码器（NAC）与因果语言模型架构，从语音转换（VC）“搬运”到了说话人匿名化（SA）领域，并通过一系列工程技巧（如动态延迟、混合嵌入、多样化提示池）实实在在地提升了匿名化语音的“好用程度”（WER和UAR）。然而，其短板也很明显：面对一个稍微“用功”一点的攻击者（半知情攻击者），隐私保护性能就会显著下降，这暗示了其匿名化核心机制可能过于依赖表面特征变换，而非深度的身份信息剥离。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练集（LibriHeavy, CommonVoice）和提示池（VCTK, ESD, VoxCeleb1, CREMA-D）均为公开数据集，论文未说明其独占数据。 Demo：提供在线演示页面：https://paniquex.github.io/Stream-Voice-Anon。复现材料：论文提供了较为详细的模型配置（第3.3节）、训练细节（第3.3节）和评估协议（第3.2节），但未提供预训练检查点或脚本。论文中引用的开源项目： HuBERT：用于内容编码器的蒸馏特征提取。 ECAPA-TDNN：用于构建lazy-informed攻击者模型。 CAM++：用作说话人编码器。 SparkTTS：使用其全局分词器。 FishSpeech：使用其Firefly-GAN声学编码器/解码器。 ConvNeXt：内容编码器的骨干网络。 SwiGLU, RoPE：Transformer中的激活函数和位置编码。总体而言：论文中未提及开源计划（除演示页面外）。 📌 核心摘要要解决的问题：在实时流式场景下，现有的说话人匿名化方法要么在语音可用性（如识别率、情感保留）上妥协严重，要么隐私保护不足，亟需一种能平衡低延迟、高隐私和高实用性的系统。方法核心：本文提出了Stream-Voice-Anon系统。其核心是借鉴流式语音转换（StreamVoice）的架构，采用一个基于因果Transformer的内容编码器（结合向量量化和知识蒸馏）提取与说话人无关的内容码，以及一个两阶段自回归模型（Slow-AR + Fast-AR）来生成目标声学码。为了实现匿名化，在推理阶段采用了三种策略：从提示池中随机选取并混合多个提示的语音内容、混合平均说话人嵌入与随机采样的高斯嵌入、以及动态调整延迟帧数。与已有方法相比新在哪里：1）架构迁移：首次将先进的、基于因果语言模型的流式VC架构系统性地适配用于SA任务；2）匿名化增强：在VC架构基础上，创新性地集成了伪说话人表示采样、说话人嵌入混合和多样化提示选择等隐私保护技术；3）动态延迟：引入动态延迟训练（延迟d在1-8间随机采样），使得模型能在推理时灵活调整延迟以适应不同需求，而无需重新训练。主要实验结果：在VoicePrivacy 2024 Challenge协议下，与之前的流式SOTA系统DarkStream相比：实用性大幅提升：字错误率（WER）相对降低高达46%；未加权平均召回率（UAR，情感识别）相对提升高达28%。隐私保护持平或略有下降：在“懒惰知情攻击者”场景下，等错误率（EER）与DarkStream相当（约47%）；但在“半知情攻击者”场景下，EER降低了约15%，表明隐私保护有所退化。延迟更低：实现与DarkStream可比甚至更低的延迟（180ms vs. 200ms）。关键结果见下表：模型类型 WER ↓ UAR ↑ EER ↑ (lazy-informed) EER ↑ (semi-informed) DarkStream [15] (Mel+CL) 在线, 200ms 8.75 (0.0%) 34.73 (0.0%) 47.26 (0.0%) 21.83 (0.0%) Stream-Voice-Anon (cremad-emo-4rnd) 在线, 180ms 6.59 (24.7%↓) 44.59 (28.4%↑) 46.53 (1.5%↓) 18.63 (14.6%↓) Stream-Voice-Anon (cross-ds-4rnd) 在线, 180ms 4.71 (46.2%↓) 39.94 (15.0%↑) 47.72 (0.9%↑) 18.98 (13.1%↓) 实际意义：该系统在保持实时性的前提下，显著提高了匿名化语音在自动语音识别（ASR）和情感识别（SER）任务上的可用性，使其更适合用于需要保留语义和情感信息的实时通信场景（如紧急呼叫、心理咨询、法律记录）。主要局限性：1) 面对经过针对性训练的“半知情”攻击者，隐私保护能力下降；2) 系统依赖GPU加速，无法在CPU上实时运行；3) 离线模型与在线模型之间仍存在性能差距；4) 论文未开源代码和模型，限制了复现与应用。 🏗️ 模型架构系统整体架构如图1所示，主要包含训练和推理两个流程。 ...

Towards Evaluating Generative Audio: Insights from Neural Audio Codec Embedding Distances

📄 Towards Evaluating Generative Audio: Insights from Neural Audio Codec Embedding Distances #模型评估 #神经音频编解码器 #距离度量 ✅ 6.5/10 | 前50% | #模型评估 | #神经音频编解码器 | #距离度量学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Arijit Biswas (Dolby Germany GmbH, N¨urnberg, Germany) 通讯作者：未说明（论文中未明确标注）作者列表：Arijit Biswas (Dolby Germany GmbH, N¨urnberg, Germany)、Lars Villemoes (Dolby Sweden AB, Stockholm, Sweden) 💡 毒舌点评论文系统性地比较了FAD与MMD在评估音频质量时的表现，并令人信服地指出FAD在NAC嵌入空间更胜一筹，同时证明了“更好的编解码器带来更好的评估嵌入”这一直觉。然而，其实验严格限定在有参考信号的全带宽音频质量预测上，对于其直接服务的“生成音频评估”（通常无参考）场景，本文结论的迁移价值和实际指导意义需要打上一个问号。 🔗 开源详情代码：论文中未提及代码链接。文中提到使用了FADTK工具和MMD的实现，但未给出自身代码。模型权重：论文中明确给出了DAC和DACe的相关模型下载链接（引用[20], [27]），但DACe作为新提出的模型，论文未明确提供其公开权重下载链接。数据集：评估用的MPEG USAC测试数据是内部数据集，未提及公开。DACe训练数据的一部分（720小时数据集）引用自[22]，但其具体获取方式未说明。 Demo：未提及。复现材料：提供了训练策略的概要（数据、平衡采样、合成数据生成描述）、评估工具和基准数据，但缺少完整的训练日志、配置文件、超参数细节。论文中引用的开源项目：FADTK [23]、MMD实现 [24]、OpenL3 [31]。开源计划：论文中未提及开源计划。 📌 核心摘要解决的问题：随着生成音频技术的发展，需要可靠的自动化评估方法来替代耗时的主观测试。论文聚焦于一个基础问题：在评估音频感知质量时，是使用Fréchet Audio Distance（FAD）还是Maximum Mean Discrepancy（MMD）更有效？以及，使用何种音频嵌入模型（如神经音频编解码器NAC或通用模型）能获得与人类判断更一致的评估结果？方法核心：作者提出了一种增强型神经音频编解码器DACe，通过在训练中引入合成音调数据并平衡采样来改进对音调内容的处理。随后，系统性地比较了基于三种NAC嵌入（EnC, DAC, DACe）和多种通用音频嵌入（CLAP, OpenL3）计算的FAD和MMD距离，与MUSHRA主观评分在语音、音乐和混合内容上的相关性。与已有方法相比新在哪里：主要新贡献在于：1) 提出了针对特定弱点（音调材料）改进的NAC变体DACe；2) 首次在NAC嵌入域系统比较了FAD和MMD作为质量评估指标的性能；3) 提供了实证证据，表明更高保真度的NAC（如DACe）产生的嵌入与人类感知相关性更强，验证了NAC作为质量评估特征提取器的潜力。主要实验结果：实验结果表明，在NAC嵌入域，FAD与人类MUSHRA评分的相关性（Pearson Rp最高0.70，Spearman Rs最高0.82）一致优于MMD。同时，嵌入质量随编解码器保真度提升而提升：EnC (Rp 0.38) < DAC (Rp 0.67-0.68) < DACe (Rp 0.70)。然而，在通用嵌入域，FAD结合CLAP-M（Rp 0.85， Rs 0.88）和OpenL3-128M（Rp 0.84， Rs 0.84）达到了更高的相关性。关键数据如下表所示：编码器 (维度, SR) 距离度量所有条件 Rp/Rs 去除低通锚点 Rp/Rs NAC嵌入 EnC (128, 48k) MMD 0.41/0.70 0.31/0.65 EnC (128, 48k) FAD 0.38/0.66 0.32/0.63 DAC 8kbps (1024, 44.1k) MMD 0.62/0.76 0.54/0.69 DAC 8kbps (1024, 44.1k) FAD 0.67/0.80 0.61/0.74 DAC 16kbps (128, 44.1k) MMD 0.65/0.77 0.57/0.69 DAC 16kbps (128, 44.1k) FAD 0.68/0.81 0.65/0.75 DACe 24kbps (1024, 48k) MMD 0.65/0.77 0.60/0.71 DACe 24kbps (1024, 48k) FAD 0.70/0.82 0.69/0.77 通用嵌入 CLAP-M (512, 48k) MMD 0.76/0.80 0.67/0.74 CLAP-M (512, 48k) FAD 0.85/0.88 0.82/0.85 OpenL3-128M (512, 48k) FAD 0.84/0.84 0.86/0.86 实际意义：研究证明了高保真度的神经音频编解码器不仅能用于压缩，其学习的嵌入空间也能作为零样本音频质量评估的有效特征提取器，无需大规模标注数据。这为结合压缩与评估的统一模型提供了思路。主要局限性：实验评估场景是“有参考信号的全带宽音频质量预测”，这与许多生成音频评估场景（无参考信号）不同。因此，研究结论能否直接推广到生成式任务（如TTS、音乐生成）的无参考评估中，需要进一步验证。此外，虽然NAC嵌入表现不错，但仍落后于专门用大规模数据训练的CLAP等模型。 🏗️ 模型架构论文核心是评估而非提出一个全新的端到端架构，因此架构描述主要围绕神经音频编解码器（NAC）和评估流程。 ...