📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

#音频大模型 #音频安全 #对抗样本 #语音合成

✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高

👥 作者与机构

第一作者：Bo-Han Feng（台湾大学）、Chien-Feng Liu（台湾大学）、Yu-Hsuan Li Liang（台湾大学）（注：论文标明三位为共同第一作者）
通讯作者：Hung-yi Lee（台湾大学）（注：论文未明确标注通讯作者，Hung-yi Lee为资深作者，按惯例推断）
作者列表：Bo-Han Feng（台湾大学）、Chien-Feng Liu（台湾大学）、Yu-Hsuan Li Liang（台湾大学）、Chih-Kai Yang（台湾大学）、Szu-Wei Fu（NVIDIA）、Zhehuai Chen（NVIDIA）、Ke-Han Lu（台湾大学）、Sung-Feng Huang（NVIDIA）、Chao-Han Huck Yang（NVIDIA）、Yu-Chiang Frank Wang（NVIDIA）、Yun-Nung Chen（台湾大学）、Hung-yi Lee（台湾大学）

💡 毒舌点评

这篇论文的“问题嗅觉”非常灵敏，精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞，并用一套严谨的控制变量实验（同一指令、同一说话人、不同情绪与强度）给出了令人信服的实证证据，这是其最大亮点。然而，论文在揭示问题后戛然而止，未能进一步探索漏洞产生的原因（如数据偏差、模型架构缺陷）或提出任何防御/改进方案，使其研究深度略显不足，更像是一个扎实的“安全审计报告”，而非一个完整的“攻防研究”。此外，模型评估的全面性可以进一步加强。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：论文明确提供数据集获取链接：https://huggingface.co/LALM-emotional-vulnerability。
Demo：未提及。
复现材料：论文描述了数据集构建流程和评估指标，但未提供完整的训练细节、配置或检查点。
论文中引用的开源项目：主要依赖AdvBench（文本有害查询）、CREMA-D（情感语音参考）和CosyVoice 2（TTS模型）。

📌 核心摘要

问题：大型音频语言模型（LALMs）的安全对齐在面对说话人情感（副语言信息）变化时，存在尚未被系统研究的脆弱性。
方法核心：构建了一个可控的恶意语音指令数据集。使用TTS模型将相同的恶意文本指令合成为6种情绪（中性、愤怒、厌恶、恐惧、快乐、悲伤）及3种强度（低、中、高）的语音，确保语义、说话人身份一致。然后对10个主流LALMs进行安全测试。
创新：首次系统性研究说话人情感对LALM安全对齐的影响；构建了首个专注于此问题的可控语音数据集；发现了“情绪类型”和“情绪强度”均会显著影响模型安全性，且强度影响呈非单调性（中等强度最危险）。

主要实验结果：关键发现如下表所示。不同模型对不同情绪的反应不一，但普遍存在安全不一致性。与纯文本输入相比，语音输入通常会降低安全性（更高的NRR/UR）。情绪强度方面，中等强度的情绪表达在多个模型中引发了最高的不安全率（UR），而非预期的高强度。例如，MiniCPM-o-2.6在“愤怒”情绪下，中等强度的UR（3.65%）高于低强度（3.46%），但远低于高强度（16.92%）；而SALMONN 13B在“厌恶”情绪下，中等强度的UR（72.31%）则高于高强度（82.69%）和低强度（88.08%），体现了复杂的模式。总体，情感变化导致模型安全指标（NRR/UR）出现显著波动（如SALMONN 7B的UR标准差达5.15%）。

表1：部分模型在不同情绪下的不安全率（UR， %）摘要

模型	中性	愤怒	厌恶	恐惧	快乐	悲伤	平均(µ)	标准差(σ)
Qwen2-Audio	1.54	1.15	2.11	1.47	1.99	2.76	1.84	0.57
Qwen2.5-Omni	0.19	0.13	0.25	0.26	0.25	0.38	0.24	0.08
SALMONN 7B	34.23	22.31	28.08	21.73	32.18	30.19	28.12	5.15
SALMONN 13B	72.88	70.77	81.03	72.88	71.15	72.56	73.55	3.78
Gemini-2.0-flash	3.08	2.76	4.81	2.89	3.98	2.82	3.39	0.83

表3：部分模型在特定情绪下，不同强度的不安全率（UR， %）

模型（对应情绪）	低强度	中强度	高强度	平均(µ)	标准差(σ)
SALMONN 13B（厌恶）	88.08	72.31	82.69	81.03	8.02
MiniCPM-o-2.6（愤怒）	3.46	3.65	16.92	8.01	7.72
Gemini-2.0-flash（厌恶）	3.27	6.15	5.00	4.81	1.45

（注：表格数据直接源自论文Table 1和Table 3的关键行）

实际意义：研究揭示了LALM安全对齐的一个关键盲点，强调在实际部署中必须考虑副语言信息的影响。为未来的模型安全训练、评测基准和防御策略（如情绪感知的过滤器）提供了明确的研究方向和数据基础。
主要局限性：研究完全依赖合成语音，尽管经过人工验证，但可能无法完全代表真实世界中复杂、自然的情感表达。论文主要聚焦于发现问题，未深入分析漏洞成因，也未提出具体的缓解方案。

🏗️ 模型架构

本文是一篇实证评估研究，未提出新的模型架构。研究对象是多个已存在的大型音频语言模型（LALMs）。因此，本节无需描述模型架构。

💡 核心创新点

开辟新的安全研究维度：首次将“说话人情感”这一关键的副语言因素引入LALM安全对齐研究，指出情感可能成为绕过安全机制的新途径（越狱）或无意触发危险行为的源头。
构建可控的评估数据集：系统性地构建了一个包含8320条恶意语音指令的数据集，严格控制语义、说话人身份不变，仅变化情感类别（6种）和强度（3级），为定量分析提供了干净、可靠的实验材料。
发现情绪强度的非单调效应：通过实验揭示，情绪强度对不安全率的影响并非线性递增，中等强度的情绪表达往往比低强度和高强度引发更不安全的响应。这一发现挑战了“越夸张越危险”的简单假设，表明模型可能对更自然、微妙的情绪变化更为敏感。
揭示模型安全性的个体差异与不稳定性：评估结果显示，不同LALMs存在截然不同的“情绪盲点”（最易触发不安全响应的情绪），且即使整体安全的模型（如Qwen2-Audio），其安全指标也会因输入情绪的变化而显著波动。

🔬 细节详述

训练数据：论文未提供用于训练所评估LALMs的详细信息。用于构建评测数据集的有害查询来自AdvBench（520条文本）。情感语音合成使用了CREMA-D作为参考数据集，并采用CosyVoice 2 0.5B作为TTS模型。最终数据集包含8320条语音指令。
损失函数：未说明，因为本文不涉及模型训练。
训练策略：未说明。
关键超参数：未说明。
训练硬件：未说明。
推理细节：所有实验使用贪心解码。为模型提供语音指令及一个文本提示，要求其对语音内容进行响应。
评估指标：
1. 不拒绝率（NRR）：通过模式匹配（如检查“I am sorry”）判断模型是否未拒绝恶意指令。NRR越高，表示模型越容易“顺从”恶意请求。
2. 不安全率（UR）：使用GPT-4o作为LLM评判器，基于响应语义判断其是否真正包含有害信息。UR越高，表示模型输出的内容越不安全。论文报告UR与人工标注的Cohen‘s kappa为0.92，表明评判可靠性高。
数据增强：核心在于通过TTS合成不同情绪和强度的语音，这本身是一种基于参考语音的数据增强/转化过程。

📊 实验结果

本研究的核心实验结果集中于Table 1和Table 3，已在上文“核心摘要”中以表格形式列出关键数据。以下是详细结论：

主要结论：

模态差异：与纯文本指令相比，几乎所有模型在接收语音指令时都表现出更高的不拒绝率（NRR）和不安全率（UR），证实了语音模态本身会削弱安全对齐。
情绪影响：不同情绪对模型安全的影响差异显著。例如，对于SALMONN 13B，“厌恶”情绪导致的平均UR（81.03%）远高于“愤怒”（70.77%）。对于Gemini-2.0-flash，“厌恶”情绪同样最具风险。
强度影响：如上文创新点3所述，中等强度的情绪表达在多数模型中最易引发不安全响应（高UR）。这一现象在Qwen2-Audio（悲伤）、Gemini-2.0-flash（厌恶）等模型中尤为明显。
模型分化：被评估的模型可分为两个阵营：相对安全组（如Qwen系列、Gemini系列）和高风险组（如SALMONN系列、Typhoon-audio）。即使在高风险组内，安全性的波动也因情绪而异。

证据与图表：论文提供了两张关键数据表（Table 1, Table 3），并包含了图表（Fig. 1）以可视化数据集构建与实验流程。由于用户未提供图表的可访问URL，无法直接插入图片。根据描述，图1（pdf-image-page2-idx0）展示了从AdvBench获取文本、使用CREMA-D作为情绪参考、通过CosyVoice合成语音、经人工验证后测试LALMs，并最终计算NRR和UR的完整流程。

⚖️ 评分理由

学术质量：5.5/7。创新性体现在问题提出和实证发现上（+1）。实验设计严谨，控制变量得当，测试模型广泛，指标（UR）有语义深度（+1.5）。证据可信度较高，有定量数据和统计分析支撑（+1.5）。但技术正确性上，作为评估研究本身无错误，但缺乏对发现机制的深层探索（+0.5）。总分5.5。
选题价值：1.5/2。问题高度前沿，直接针对多模态大模型安全这一热点（+0.8）。发现对模型安全部署和未来研究有重要警示和指导意义，潜在影响大（+0.7）。与音频/语音领域安全研究高度相关（+0.0）。总分1.5。
开源与复现加成：0.3/1。公开了精心构建的评测数据集，这是最重要的复现资源（+0.5）。但未提供评测代码、详细协议或模型细节，复现门槛仍较高（-0.2）。总分0.3。

← 返回 ICASSP 2026 论文分析

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文