音频安全 | 语音/音乐/音频论文速递

Misinformation Span Detection in Videos via Audio Transcripts

📄 Misinformation Span Detection in Videos via Audio Transcripts #音频安全 #预训练 #多语言 #音视频 ✅ 7.5/10 | 前25% | #音频安全 | #预训练 | #多语言 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Breno Matos (联邦米纳斯吉拉斯大学，工作完成时) 通讯作者：未说明作者列表： Breno Matos (联邦米纳斯吉拉斯大学) Rennan C. Lima (未说明具体机构) Savvas Zannettou (未说明具体机构) Fabrício Benevenuto (未说明具体机构) Rodrygo L.T. Santos (未说明具体机构) 💡 毒舌点评这篇论文的亮点在于敏锐地捕捉到了“视频虚假信息片段检测”这一空白任务，并提供了首个公开、标注的数据集，为后续研究铺平了道路。然而，其短板也十分明显：方法上缺乏实质创新，仅仅是现有语音转录模型（Whisper）和语言模型（BERTimbau/PTT5）的串联使用，更像是一个“数据集构建与初步验证”的工作，而非一个提出突破性算法的论文。 🔗 开源详情代码：提供代码仓库链接（https://github.com/brenomatos/msd）。模型权重：提及发布了训练好的模型权重，可通过HuggingFace获取。数据集：公开发布。BOL4Y和EI22数据集（包括虚假声明、转录文本、标注）在Zenodo仓库（https://zenodo.org/records/19097541）。音频和视频文件托管在HuggingFace（https://huggingface.co/datasets/brenomatos/msd），需申请访问。 Demo：未提及。复现材料：提供了数据集构建和模型训练的代码。论文附录详细说明了数据集的字段结构。引用的开源项目： Whisper：用于语音转录。 BERTimbau：用于生成文本嵌入和作为分类器。 PTT5：用于作为分类器。 SentenceTransformers：用于获取嵌入。 Doccano：用于文本标注。 HuggingFace Transformers：用于模型实现。 📌 核心摘要问题：现有视频虚假信息检测多停留在视频级别的二分类，无法定位视频中具体哪一段内容（即虚假声明）是问题所在，这给事实核查和内容审核带来了困难。方法核心：提出“虚假信息片段检测”任务。方法流程为：使用Whisper将视频音频转录为文本片段；利用BERTimbau模型将片段和已知的虚假声明转换为向量，通过余弦相似度匹配可能包含虚假信息的片段；最后，使用BERTimbau或PTT5作为分类器，对转录片段进行二分类（是否为虚假信息）。创新点：首次定义并研究该任务；构建并公开了两个包含时间戳标注的葡萄牙语虚假视频数据集（BOL4Y和EI22）；进行了包括时间窗口分析、跨数据集评估在内的系统性基准实验。主要实验结果：在BOL4Y数据集上，使用BERTimbau分类器在1:75的下采样比例下取得了最佳的Macro F1分数0.68。在“编辑版”数据集（使用记者润色后的声明）上，性能有所提升，最佳F1达到0.81。跨数据集实验（BOL4Y训练，EI22测试）取得了0.71的F1分数，表明模型具有一定的泛化能力。时间分析显示，模型性能在不同月份间存在波动。实际意义：为自动化辅助事实核查人员定位视频中的虚假内容、为社交平台在虚假声明出现时精准添加警告标签提供了技术可能和数据基础。主要局限性：依赖于音频转录质量，Whisper的自动分段可能不够精确；数据仅限于葡萄牙语和巴西政治语境，泛化性未知；分类性能（F1=0.68）仍有较大提升空间。 🏗️ 模型架构本文没有提出新的模型架构，而是构建了一个基于现有预训练模型的处理流水线。整体流程如下： ...

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频安全 #数据增强 #音频大模型 #多模态模型 #对抗样本 🔥 评分：9.5/10 | arxiv 👥 作者与机构第一作者：Jaechul Roh（推断，因名字在前）通讯作者：Amir Houmansadr（推断，因名字在后且通常为资深作者）全部作者：Jaechul Roh, Amir Houmansadr 所属机构：University of Massachusetts Amherst, Department of Computer Science 💡 毒舌点评亮点：论文像一把精准的手术刀，首次剖开了音频大模型“良性微调”外表下的安全脆弱性，揭示了其与文本/视觉模态截然不同的、由编码器架构决定的“阿喀琉斯之踵”，研究问题抓得准，分析框架设计得妙。槽点：提出的防御方法（远距离过滤和系统提示）虽然有效但略显“直球”，缺乏对模型内部拒绝机制更深入的干预探索，算是给后续研究者留了口饭吃。 🔗 开源详情代码：论文明确提及在GitHub上发布了代码（“Report GitHub Issue”），用于复现邻近度过滤和实验。数据集：论文提及发布了用于实验的良性音频数据集和有害音频提示集（经过TTS转换）。模型权重：论文研究的是三个已公开的SOTA模型（AF3, Kimi-Audio, Qwen2.5-Omni），未发布其微调后的权重，以防止滥用。在线Demo：未提及。依赖的开源工具：使用了多个开源模型和工具，包括：Whisper系列编码器、Sentence-BERT、WavLM、LoRA微调框架、Edge-TTS、Google TTS (gTTS)等。 📌 核心摘要这篇论文首次系统研究了良性（无害）音频数据微调对音频大模型安全对齐的破坏作用。要解决的问题是：用户出于提升模型性能目的进行的常规微调，是否会无意中破坏模型的安全防护？方法上，作者提出了一个基于嵌入空间邻近度的过滤框架，从语义、声学及混合维度，选择性地用与有害内容在表示空间上相近的良性音频进行微调。主要发现是，即使微调数据完全良性，也能使越狱成功率（JSR）从个位数飙升至87.12%，且主导的脆弱性维度（语义或声学）取决于模型编码器的架构。实际意义在于揭示了Audio LLMs一个非对抗性、易被忽视的重大安全风险，并提出了两种无需修改架构的实用防御策略（训练时远距离过滤和推理时安全系统提示）。局限性在于研究限于英语单轮对话，未探索非语音音频任务或多语言场景。 🏗️ 模型架构论文本身并非提出新模型，而是分析三个现有的SOTA音频大模型在微调下的安全行为。因此，模型架构部分描述的是被分析的三个目标模型： Audio Flamingo 3 (AF3)：架构为 Whisper音频编码器 -> 2层MLP投影器 -> Qwen2.5-7B LLM骨干（28层）。其关键特点是MLP投影器会压缩音频特征，形成一个与文本对齐空间不同的表示区域。 Kimi-Audio 7B：采用双编码器设计，包含WhisperVQ编码器（通过矢量量化瓶颈，会丢弃部分声学细节）和Whisper-Large-V3编码器。音频信息通过这两个编码器处理后输入LLM。 Qwen2.5-Omni 7B：架构为Whisper-Large-V3编码器 -> 直通（pass-through）-> Qwen2.5-7B Thinker模块。其编码器输出几乎不加修改地传递给LLM，保留了更多的音频-文本对齐信息。数据流动与关键设计：在所有三个模型中，音频编码器在微调期间是冻结的，只有LLM骨干网络通过LoRA进行参数更新。这是与文本LLM微调的关键区别：在音频LLM中，安全对齐所依赖的表示（来自编码器）并未被微调直接修改，但下游LLM的决策边界却发生了偏移。 ...

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #音频分类 #数据增强 #音频安全 ✅ 评分：6.5/10 | arxiv 👥 作者与机构第一作者：Lam Pham (奥地利理工学院 AIT，数字安全与安全中心) 通讯作者：Son Le (Ton Duc Thang University, Vietnam) 其他作者： Khoi Vu, Dat Tran (FPT University, Vietnam) Phat Lam (HCM University of Technology, Vietnam) David Fischinger, Alexander Schindler, Martin Boyer (奥地利理工学院 AIT，数字安全与安全中心) 💡 毒舌点评亮点：论文像一本详尽的“菜谱”，把频谱图、网络架构、预训练模型这些“食材”挨个试了个遍，还精心设计了“三阶段烹饪法”（训练策略），最终端出了一盘在特定数据集上色香味俱全的“菜”（高准确率）。槽点：创新性主要体现在“系统性尝试”和“策略调优”上，缺乏让人眼前一亮的“新菜式”（核心方法创新）。而且，这盘“菜”主要用的还是别人家的“高级食材”（预训练BEATs模型）。 🔗 开源详情代码：论文在arXiv页面明确提供了GitHub链接，表明代码已开源。模型权重：论文中未明确说明是否公开预训练或微调后的模型权重。通常此类研究会随代码一起发布。数据集：使用了公开的基准数据集EnvSDD和ESDD-Challenge-TestSet，论文中提供了数据集的详细构成和获取参考文献。预训练权重：使用了公开的预训练BEATs模型。在线Demo：论文中未提及。引用的开源项目：Pytorch框架、Adam优化器、BEATs模型、EnvSDD数据集。 📌 核心摘要本文针对环境声音（如声音事件、声音场景）的深度伪造检测这一新兴任务，提出了一个系统的深度学习框架。核心贡献在于通过大量实验，系统评估了不同频谱图（MEL, CQT, Gammatone）、多种CNN架构（ResNet, Inception等）以及预训练模型（BEATs）在该任务上的表现，并验证了声音事件与声音场景的伪造检测应作为独立任务处理。关键方法包括：1）提出以Gammatone频谱图作为有效输入特征；2）设计了一个包含多损失函数训练、Mixup微调和骨干网络冻结的三阶段训练策略；3）发现并验证了微调预训练的BEATs模型远优于从头训练。主要效果是在EnvSDD测试集上取得了0.98的准确率和0.99的AUC，并在跨数据集测试（ESDD-Challenge-TestSet）中展现了泛化能力。局限性在于方法创新性有限，主要依赖现有技术的组合与优化，且跨数据集性能有显著下降，表明领域泛化仍是挑战。 🏗️ 模型架构论文提出了一个统一的深度学习框架用于环境声音深度伪造检测（ESDD），其整体流程如下： ...

Anonymization, Not Elimination: Utility-Preserved Speech Anonymization

📄 Anonymization, Not Elimination: Utility-Preserved Speech Anonymization #语音匿名化 #流匹配 #扩散模型 #模型评估 #音频安全 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Yunchong Xiao*, Yuxiang Zhao*（上海交通大学，计算机科学与技术学院，X-LANCE实验室）通讯作者：Jiachun Liao（南湖实验室，大数据技术研究中心），Xie Chen（上海交通大学，计算机科学与技术学院，X-LANCE实验室）其他作者： Ziyang Ma（上海交通大学，计算机科学与技术学院，X-LANCE实验室） Shuai Wang（南京大学，智能科学与技术学院） Kai Yu（上海交通大学，计算机科学与技术学院，X-LANCE实验室） 💡 毒舌点评这篇论文的亮点在于把“匿名化”和“消除”分得门儿清，用流匹配生成千变万化的新“声纹”，而不是粗暴地抹掉或替换，还煞有介事地设计了从头训练下游模型的评估协议，这比那些拿预训练模型在匿名数据上跑个分就完事的“表面功夫”扎实多了。槽点嘛，内容匿名化部分对“语言风格”这种更隐蔽的PII保护力度似乎还不够，而且这么复杂的两阶段框架，真要部署到实时系统里，估计得把服务器累得够呛。 🔗 开源详情代码：论文中提到“GitHub Issue”，并在摘要后提供了“GitHub”链接（但未在提供的文本中显示具体URL）。论文正文也提到“Please view the build logs for errors. Generated by L A T E xml.”，表明其HTML版本由LaTeXML生成，但这不是代码仓库。推断代码已开源或计划开源，具体地址需查看原论文PDF或arXiv页面。模型权重：论文中未明确提及是否公开预训练模型权重（如骨干网络、匿名器、SECA管道中的各组件）。数据集：实验使用公开数据集：LibriSpeech, LibriTTS, IEMOCAP, WikiAnn。论文未提及发布新的数据集。预训练权重：论文中引用了多个预训练模型：HuBERT-large, CAM++, ECAPA-TDNN (用于评估), Flair NER, F5-TTS, Whisper-large-v3 (用于评估), Emotion2Vec (用于评估)。这些均非本文作者训练。在线 Demo：论文中未提及。依赖的开源项目：PyTorch, icefall (ASR训练配方), F5-TTS仓库, SpeechBrain (ECAPA-TDNN), HuggingFace Transformers/Models (多个模型), RMVPE等。 📌 核心摘要这篇论文针对语音数据隐私保护中“隐私泄露”与“数据效用损失”的核心矛盾，提出了一个新颖的两阶段框架。首先，为解决语音匿名化（保护“谁在说”）中身份多样性不足和可控性差的问题，提出了基于流匹配的说话人嵌入匿名器（F3-VA），它能生成多样且与原始说话人充分分离的新身份。其次，为解决内容匿名化（保护“说了什么”）中传统删除/替换方法导致的声学不连续问题，提出了基于生成式语音编辑的管道（SECA），能无缝替换个人隐私信息。更重要的是，论文提出了一种更真实的效用评估协议，即通过在匿名化数据上从头训练ASR、TTS和SER模型来评估其作为训练资源的价值，而非仅在预训练模型上测试。实验表明，该框架在VoicePrivacy Challenge基线对比中，在提供更强隐私保护（更高的声学和内容验证等错误率）的同时，显著降低了下游任务性能的损失。 ...

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频大模型 #模型评估 #对抗样本 #基准测试 #音频安全 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Jaechul Roh（推断，基于论文作者顺序和邮箱前缀）通讯作者：Amir Houmansadr（麻省大学阿默斯特分校，计算机科学系）其他作者：无（本文为双作者论文）所属机构：University of Massachusetts Amherst（麻省大学阿默斯特分校），计算机科学系。 💡 毒舌点评亮点：这篇论文像一把精准的手术刀，首次剖开了音频大模型“安全对齐”的脆弱内脏——原来不用投毒，光喂“健康食品”（良性数据）就能让它对“坏指令”言听计从。其“邻近性分解”框架巧妙地将模糊的“相似”拆解为“说了啥”和“听着像啥”，并发现这居然取决于模型“耳朵”（编码器）的构造，洞察深刻。槽点：研究聚焦于英语单轮问答，像是在无菌实验室里测试病毒的威力，现实世界中多语言、多轮次、带背景噪音的“培养皿”会怎样？防御手段（系统提示）虽有效，但像个事后补的“道德补丁”，模型本身的“先天缺陷”如何从架构上根治？ 🔗 开源详情代码：论文提及提供了GitHub仓库（https://github.com/…），但未在正文给出完整链接。推测包含用于邻近性过滤和实验复现的代码。模型权重：论文中评估的三个模型（AF3, Kimi-Audio, Qwen2.5-Omni）均为公开的SOTA模型，其预训练权重可在Hugging Face等平台获取。微调后的模型权重未提供，以防滥用。数据集：使用的良性数据集（SD-QA, GC Accents, MMSU, MELD）和有害数据集（AdvBench, SafetyBench）多为公开基准。论文未提及发布新数据集。预训练权重：未提供，依赖于上述公开模型。在线Demo：未提及。引用的开源项目：依赖的主要开源工具/模型包括：Whisper (编码器), Sentence-BERT, WavLM, Hugging Face Transformers库, LoRA实现等。 📌 核心摘要这篇论文首次系统研究了良性音频数据微调对音频大模型安全对齐的破坏性影响。核心问题是：用户出于提升性能的目的，在完全无害的音频数据上微调模型，是否会意外削弱其拒绝有害指令的能力？作者提出了一个基于嵌入空间邻近性的过滤框架，通过计算良性音频与有害音频在模型内部或外部参考编码器空间中的距离，来选择性地构建微调数据集。实验在三个SOTA模型上进行，发现：1）良性微调能显著提升越狱成功率，在邻近性过滤下，JSR从个位数飙升至87.12%；2）主导的脆弱性轴（语义或声学）是架构依赖的，由音频编码器如何将声音映射到LLM输入空间的方式决定；3）防御是可行的，通过“远距离过滤”训练数据或在推理时添加安全系统提示，可将JSR降至近零。研究揭示了音频大模型安全与文本/视觉模型的结构性差异，强调了模态感知的安全评估和数据筛选的必要性。 🏗️ 模型架构论文本身并未提出新模型，而是对三个现有SOTA音频大模型进行安全分析。其整体分析流程和涉及的模型架构如下：输入：原始音频波形。音频编码器（冻结）：将波形转换为高级表示。 Audio Flamingo 3 (AF3)：使用Whisper编码器，后接一个两层MLP投影器，将音频特征压缩后输入LLM。 Kimi-Audio-7B：采用双编码器设计，包含一个WhisperVQEncoder（通过矢量量化引入瓶颈）和一个Whisper-Large-V3编码器。 Qwen2.5-Omni：使用Whisper-Large-V3编码器，其输出以“直通”方式（无压缩投影）输入LLM。大语言模型（部分参数通过LoRA微调）：接收音频编码器的输出（可能经过投影），生成文本响应。三个模型的LLM骨干均基于Qwen2.5-7B。输出：文本形式的回答（可能包含拒绝信息或有害内容）。安全对齐：模型在预训练后经过安全对齐训练，使其能拒绝有害文本指令。这种对齐主要针对文本表示空间，对音频输入产生的表示可能覆盖不足。数据流：音频 → [冻结的音频编码器] → [可选的投影层] → [LLM（部分参数通过LoRA更新）] → 文本输出。关键设计选择：论文的核心发现在于，不同音频编码器架构（压缩式、量化瓶颈式、直通式）决定了良性微调数据在嵌入空间中的“邻近性”如何影响安全边界，从而导致了差异化的安全脆弱性。 ...

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分：8.8/10 | arxiv 👥 作者与机构第一作者：Meng Chen（浙江大学，ZJU-MUSLAB）通讯作者：Tianwei Zhang（新加坡国立大学，School of Computing）其他作者： Kun Wang（浙江大学，ZJU-MUSLAB） Li Lu（浙江大学，ZJU-MUSLAB） Jiaheng Zhang（香港中文大学，Department of Computer Science & Engineering） Kun Wang（阿里云，Alibaba Cloud）(注：论文PDF中作者列表有两位Kun Wang，根据机构推断一位来自ZJU-MUSLAB，另一位来自阿里云) 💡 毒舌点评亮点：论文首次系统性地研究了针对音频大语言模型（LALM）的“间接”音频提示注入攻击，问题定义精准（数据-only访问、用户在环），并提出了一个通用且有效的攻击框架AudioHijack。槽点：攻击框架严重依赖对目标模型的白盒访问（知道架构和参数），这在现实世界中可能是一个重大限制；此外，虽然提出了多种防御策略，但它们的有效性有限，论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情代码：论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建，但截至论文发布时可能尚未完全公开。模型权重：未提及发布攻击模型权重。攻击针对的是现有的开源LALM。数据集：论文中使用的音频数据来自公开基准（AirBench, VoiceBench）。用于训练攻击的辅助用户指令数据集可能随代码一起发布。音频样本：提供在线试听链接：https://audiohijack.github.io。在线Demo：未提及。依赖的开源项目：攻击实现依赖于PyTorch等框架，以及被攻击的各个开源LALM的官方代码库（如Qwen2-Audio, GLM-4-Voice等）。 📌 核心摘要这篇论文揭示了针对音频大语言模型（LALM）的一种新型安全威胁：上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据（如会议录音、音乐片段），即可在用户不知情的情况下，劫持模型行为，使其执行恶意指令（如发送邮件、下载文件、传播错误信息）。为实现这一目标，作者提出了AudioHijack框架，它通过基于采样的梯度估计解决了音频分词不可微的问题，实现了端到端的对抗音频优化；通过注意力引导的上下文泛化技术，使攻击能泛化到未知的用户指令上下文；并设计了卷积扰动混合方法，将对抗扰动模拟为自然的混响效果，极大提升了攻击的隐蔽性。实验表明，AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%，并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞，为LALM的安全设计提供了重要警示。 🏗️ 模型架构论文本身并未提出新的模型架构，而是针对现有的、架构各异的大型音频语言模型（LALM）进行攻击研究。因此，本节将详细描述被攻击的LALM的通用架构流程，以及AudioHijack攻击框架如何与之交互。 ...

StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #音频安全 #音频取证 #半监督学习 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Zhentao Liu（根据arXiv页面及GitHub仓库L1uZhentao推断，可能为苏黎世联邦理工学院（ETH Zurich）或相关机构，论文中未明确标注）通讯作者：Milos Cernak（根据arXiv页面推断，可能为苏黎世联邦理工学院（ETH Zurich）或相关机构，论文中未明确标注）其他作者：无机构说明：论文全文未提供明确的作者单位信息。根据arXiv提交者信息及开源仓库L1uZhentao推断，作者可能来自苏黎世联邦理工学院（ETH Zurich）的计算机科学系或相关实验室。通讯作者Milos Cernak在音频处理领域较为活跃。此处信息为推断，论文中未明确说明。 💡 毒舌点评亮点是把图像取证里的“半脆弱水印”思想成功移植到音频深度伪造检测，实现了“对良性处理免疫，对恶意篡改过敏”的智能封条，思路清晰且实验验证扎实。槽点在于模拟“恶意变换”仅用了音高偏移，与真实世界中复杂的TTS/VC攻击存在差距，且16比特的水印容量在实际部署中可能略显单薄，更像个概念验证而非工业级方案。 🔗 开源详情代码：论文中明确提供了GitHub链接：https://github.com/L1uZhentao/deepfake_benchmark。该仓库应包含StreamMark的实现及文中提到的深度伪造基准测试数据集。模型权重：论文中未明确提及是否公开预训练模型权重。通常此类开源项目会附带权重，但需查阅其GitHub仓库确认。数据集：论文开源了其构建的深度伪造基准测试集，包含多种恶意（TTS, VC, 编辑）和良性（风格转移）AI转换的音频对。在线Demo：论文中未提及。依赖开源工具：论文中未详细列出，但实现必然依赖如PyTorch、Torchaudio等常见深度学习和音频处理库。 📌 核心摘要本文针对生成式AI带来的音频深度伪造威胁，提出了一种名为StreamMark的主动防御框架。该框架是一种基于深度学习的半脆弱音频水印系统，其核心创新在于重新定义了水印的目标：不是追求对所有变换的绝对鲁棒，而是被设计为对保持语义的良性变换（如压缩、噪声）保持鲁棒，而对改变语义的恶意篡改（如语音转换、编辑）变得脆弱。方法上，它采用独特的编码器-失真层-解码器架构，将水印嵌入STFT的复数域（实部与虚部），并通过一个包含良性与恶意变换集的失真层进行对抗性训练，使模型学会区分变换的语义属性。实验表明，StreamMark在保持高不可感知性（PESQ 4.20）和对Opus编码等良性变换高鲁棒性（>99.89%）的同时，能有效对抗多种深度伪造攻击：面对TTS、语音转换和编辑攻击时，水印恢复准确率降至随机猜测水平（~50%），而面对良性AI风格转移时，准确率保持在98%以上。该研究为音频真实性认证提供了从被动检测到主动标记的范式转变。 🏗️ 模型架构 StreamMark采用端到端的编码器-失真层-解码器三阶段架构，其完整流程与核心组件如下：编码器层：输入：原始音频波形 + 16比特水印信息。流程： a. 复数STFT：将音频转换为短时傅里叶变换的复数谱，分离为实部和虚部。 b. 水印编码：16比特信息通过一个Watermark Encoder（512维全连接层+LeakyReLU）进行编码。 c. 双路特征提取与嵌入：实部和虚部分别通过独立的Real Encoder和Imaginary Encoder（均为6层卷积网络，基本单元为Skip-Gated Block）提取特征。编码后的水印信息被分别注入到实部和虚部的特征中，通过Real Embedder和Imaginary Embedder（结构同编码器）进行融合。 d. 逆STFT：将修改后的实部和虚部谱图通过逆短时傅里叶变换合成为含水印的音频波形。设计理由：复数域嵌入利用了人耳对相位失真相对不敏感的特性，相比仅修改幅度谱的方法（如Timbre Watermarking），能在保证不可感知性的前提下，实现更有效的水印嵌入。失真层： ...

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #基准测试 #语音大模型 #音频理解 #音频安全 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：无法从摘要中明确判断通讯作者：无法从摘要中明确判断其他作者：Yuxiang Wang, Hongyu Liu, Yijiang Xu, Qinke Ni, Li Wang, Wan Lin, Kunyu Feng, Dekun Chen, Xu Tan, Lei Wang, Jie Shi, Zhizheng Wu 注：所提供的论文摘要中未包含任何作者所属机构信息。根据要求，无法从联系邮箱、致谢等处进行推断，故仅列出作者姓名。 💡 毒舌点评这篇论文的亮点在于它敏锐地抓住了语音大模型（SLM）从“玩具”走向“工具”时必须面对的残酷现实：话不能只听内容，还得看谁说、怎么说、在哪儿说。它设计的“双层评估框架”像一把精准的手术刀，剖开了当前模型在语音情境理解上的虚胖——感知能力在线，但“社会智商”掉线。槽点嘛，就是它主要是个“体检报告”而非“药方”，指出了病灶（语音接地鸿沟）但没开药，而且依赖于现有模型的感知能力作为评估前提，如果感知本身就不准，结论就得打个问号。 🔗 开源详情代码：是。论文摘要明确指出“Code and data are publicly available”，并提供了项目主页链接：https://amphionteam.github.io/VoxSafeBench_demopage/。通常此类项目会托管在GitHub。模型权重：摘要未提及。VoxSafeBench是评估基准，本身不包含模型权重。它用于评估其他SLM。数据集：是。摘要明确指出数据公开，应包含在项目主页提供的链接中。预训练权重：不适用。基准不涉及预训练。在线Demo：项目主页链接（...demopage/）很可能包含在线演示或交互式示例。引用的开源项目：摘要未提及具体依赖的开源工具或模型。 📌 核心摘要这篇论文旨在解决一个关键问题：当语音大模型（SLM）进入多用户共享环境时，仅基于文本内容的安全对齐策略是不足的，说话人身份、副语言特征和声学场景等音频上下文信息会根本性地改变请求的性质。为此，作者提出了VoxSafeBench，这是一个首个联合评估SLM在安全、公平和隐私三个社会维度对齐能力的基准测试。其核心方法是采用“双层设计”：Tier1使用文本和音频匹配的输入评估内容中心风险；Tier2则聚焦于音频条件风险，即文本转录无害但正确响应依赖于声学线索的场景。通过设计中间感知探针，作者验证了前沿SLM能够检测相关声学线索，但仍然无法据此做出恰当的社会性响应。主要发现是，在22个双语任务上，模型在纯文本中表现出的鲁棒安全护栏，在语音场景下显著退化：对于说话人和场景条件的风险安全意识下降，当人口差异通过声音传达时公平性受损，当上下文线索通过声音传递时隐私保护失效。这揭示了普遍存在的“语音接地鸿沟”。该工作的实际意义在于为评估和改进SLM在实际复杂声学环境中的社会智能提供了关键的诊断工具和衡量标准。 🏗️ 模型架构注意：VoxSafeBench本身是一个评估基准（Benchmark），而非一个具体的模型。因此，它没有传统意义上的“模型架构”。它的“架构”指的是其评估框架的设计。 ...