📄 AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries?

#语音识别 #音频问答 #多模态模型

7.9/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5

👥 作者与机构

Jiaxi Yang, Chaewan Chun, Jason Lucas, Yuchen Yang, Dongwon Lee Penn State University

💡 毒舌点评

优点：精准切中了多模态大模型安全对齐领域的一个新兴盲点——音频模态下的“过度拒绝”。作为首个专门为此设计的基准，AOR-Bench的提出本身就具有显著的开创性和实用价值，填补了从文本到视觉再到音频的过度拒绝研究链条中缺失的一环。论文的实验设计覆盖了主流的闭源与开源模型，发现（尤其是系统提示的影响）也具有启发性。

缺点：研究的深度和严谨性未能完全匹配其开创性的标题。基准构建流程存在明显的“合成痕迹”，依赖Sora-2生成视频再提取音频，其产生的背景音与真实世界复杂声学环境的生态效度（ecological validity）存疑，可能使得实验结论过于“干净”。方法论上，核心指标MB-Score将TRR（在独立有害样本上测试）与ORR（在伪有害样本上测试）进行调和平均，但这两类测试集并非严格的配对对比，其组合的意义需要更仔细的论证。此外，缓解策略（链式思考和激活引导）的实验规模过小（仅3个模型），且激活引导的结果实际显示了安全性能的下降，论文对此的解读略显乐观。整体而言，这是一篇扎实的“开坑”之作，但在方法论创新和结论的坚实程度上，距离顶会的最高标准仍有差距。

📌 核心摘要

本文首次提出了针对大型音频语言模型（LALMs）过度拒绝问题的专用基准AOR-Bench。该基准的核心在于构造“伪有害”音频：其语音内容在脱离背景时听起来有害，但结合背景音轨（如应急响应、游戏场景）后，意图则为良善。通过在12个LALMs上进行评估，研究发现过度拒绝现象普遍存在，且模型未能充分理解背景语义。此外，系统提示对拒绝行为有显著影响。论文初步探索了链式思考和激活引导两种缓解方法，为改善模型安全对齐提供了方向。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文中未提及模型权重链接。
数据集：论文中未提及数据集公开链接。
Demo：论文中未提及Demo链接。
复现材料：论文中未提及复现材料链接。
论文中引用的开源项目：
- Whisper-large-v3: OpenAI开发的自动语音识别模型。论文中使用其进行语音识别以计算词错率。链接：https://github.com/openai/whisper
- CosyVoice-v3-flash: 阿里云通义语音实验室开源的文本转语音模型。论文中使用其将文本合成为语音音频。链接：https://huggingface.co/FunAudioLLM/CosyVoice-300M
- Sora-2: 由Liu et al. (2024b) 引用，指OpenAI的文本到视频生成模型。论文中用其生成视频以提取背景音轨。论文未提供此模型的开源链接或具体访问方式，通常认为是闭源或受限访问模型。
- DeepSeek-V3: 由Liu et al. (2024a) 引用，被用作“LLM-as-Judge”来判断模型回复是否拒绝。链接：https://huggingface.co/deepseek-ai/DeepSeek-V3

🏗️ 方法概述和架构

本文方法的核心是构建一个专门评估音频模型过度拒绝的基准AOR-Bench，并通过大规模实验揭示相关现象。其技术路径可分为基准构建、指标定义与评估、缓解策略探索三部分。

基准构建流水线：
- 背景音频生成：采用“视频到音频”的间接路线。首先人工编写视频脚本，利用文本到视频模型Sora-2生成视频，再从中提取音轨作为背景音频。作者认为，相比直接合成音频，此方法能提供更丰富、连贯的场景语义。
- 语音文本生成与配对：将背景音频输入一个高性能LALM（如Gemini-3），提示其生成对背景声学场景的文字描述，并基于该描述生成可能听起来有害的语音文本候选。这构成了“有害语音文本 + 背景描述文本”的原始配对。
- LLM集成审核：为确保配对在结合背景后确实为良善，采用多LLM投票机制（使用MiniMax-M2.5, GLM-5, Gemini-3, Claude-Haiku-4.5）进行文本域审核。只有通过集成审核的配对才会被保留。此步骤旨在减少单一模型偏见，提高“良善性”判断的一致性。
- 音频合成：对于通过审核的语音文本，使用TTS模型CosyVoice-v3-flash合成为语音音频，并与对应的背景音频合并，生成最终的“伪有害”音频样本。独立的语音音频则作为“真正有害”的对比样本。
- 音频属性变化：为研究副语言特征的影响，对合成语音在性别（男、女）、情绪（中性、快乐、愤怒）、语速（慢、正常、快）三个维度进行系统化变异，与同一背景音频组合，将样本总量从500扩展至3000。
评估指标与实验设计：
- 核心指标：定义三个关键指标：过度拒绝率（ORR）衡量在伪有害（良性）样本上的错误拒绝比例；真实拒绝率（TRR）衡量在真正有害（语音独立）样本上的正确拒绝比例；MB-Score为ORR和TRR的调和平均，旨在衡量模型在避免过度拒绝与保持安全之间的权衡。
- 评估对象：选取来自6个厂商、包含5个开源与7个闭源模型在内的12个代表性LALMs进行评估。
- 实验控制：除了直接音频输入，还设计了“提供文本化背景描述”的对照实验，以验证背景语义理解的作用。同时，测试了三种系统提示（帮助性、审查性、安全性）对拒绝行为的影响。
缓解策略探索：
- 链式思考：设计一个提示模板，引导模型在回答前先分析背景音频、识别语音请求、结合背景推断用户意图，最后生成回复。旨在增强模型对上下文的推理能力。
- 激活引导：针对可访问内部状态的开源模型，计算模型对伪有害样本（应顺从）和真正有害样本（应拒绝）的隐层表示均值差，得到一个“拒绝方向向量”。在推理时，将模型内部表示沿该方向的反方向进行偏移，以期减少过度拒绝。

💡 核心创新点

首次提出音频模态过度拒绝基准：针对现有安全评估在音频领域的空白，构建了首个专门的基准AOR-Bench，其核心创新在于利用“伪有害”音频（有害语音+良性背景）来模拟音频模态特有的上下文依赖性安全判断场景。
系统性的实证发现：通过对12个模型的评估，实证揭示了LALMs中过度拒绝的普遍性、背景语义利用不足、系统提示的显著影响以及不同模型在安全权衡上的差异性等关键现象。
初步的缓解路径探索：作为一项开创性工作，论文不仅诊断问题，还初步探索了“链式思考”和“激活引导”两种轻量级的推理时干预策略，为后续研究指明了可能的技术方向。

📊 实验结果

论文报告了在AOR-Bench上评估12个LALMs的核心实验结果。所有模型均表现出非零的过度拒绝率（ORR）。

表1：模型在伪有害音频上的过度拒绝率（ORR，%）

模型	农业	烹饪	应急	游戏	表演	运动	平均
Gemini-3	51.82	22.50	33.64	65.00	68.33	30.00	43.80
Gemini-2.5	69.09	42.50	48.18	76.67	85.00	73.33	66.20
Gemini-2	55.45	17.50	34.55	28.33	46.67	33.33	38.20
GPT-Audio	44.55	52.50	59.09	30.00	63.33	19.17	42.80
GPT-Audio-Mini	23.64	12.50	30.91	13.33	45.00	0.83	20.20
Step-Audio-2	50.00	32.50	23.64	43.33	51.67	58.33	44.20
Step-Audio-2-Mini	40.00	0.00	10.00	30.00	18.33	41.67	26.80
MiMo-Audio	25.45	0.00	15.45	20.00	28.33	13.33	18.00
MiMo-V2-Omni	56.36	47.50	33.64	46.67	73.33	30.83	45.40
Qwen2-Audio	22.73	5.00	5.45	26.67	23.33	21.67	17.80
Qwen3-Omni	60.00	40.00	27.27	50.00	73.33	48.33	48.80
Kimi-Audio	63.64	2.50	17.27	3.33	13.33	41.67	30.00

关键发现：

过度拒绝普遍存在：所有模型ORR均不为零，其中Gemini-2.5平均ORR高达66.20%，表明许多模型会错误地拒绝大量在音频上下文中实为良善的查询。
背景语义利用不足：当额外提供文本化的背景描述后，所有被测模型的平均ORR均有所下降（如图4），证实了模型未能充分利用音频中的背景信息进行安全判断。
安全与过度拒绝的权衡：通过MB-Score评估（表3），Qwen2-Audio（82.80）和Kimi-Audio（78.90）在权衡上表现较好，但多数模型MB-Score在50-60之间，表明平衡两者仍具挑战。
系统提示影响显著：安全系统提示可使拒绝率飙升至100%（图5），而帮助性提示则倾向于降低拒绝率。

缓解策略效果：

链式思考：在三个模型上测试，显著降低了ORR（表4）。
激活引导：在三个开源模型上实验，虽降低了ORR，但也导致了TRR和MB-Score的下降（图6），表明其可能损害模型原有的安全对齐。

⚖️ 评分理由

创新性 (1.8/2)：选题精准，填补了音频模态安全对齐中“过度拒绝”研究的关键空白。AOR-Bench作为首个专用基准，其“伪有害”音频的设计概念新颖且具有针对性，抓住了音频模态依赖上下文的核心挑战。
技术严谨性 (1.2/1.5)：基准构建流程设计细致，包含了LLM集成审核、人类评估与WER计算等多种验证手段。然而，主要技术短板在于：1）基准构建依赖Sora-2生成视频提取背景音，引入了合成音频的生态效度问题；2）核心评估指标MB-Score的计算中，用于计算TRR的“真正有害”数据集（独立语音）与用于计算ORR的“伪有害”数据集（语音+背景）并非严格配对，两者可能包含不同的语音内容，其调和平均的意义需要更明确的论证。
实验充分性 (1.1/1.5)：评估模型覆盖面广（12个模型），实验包括了基准验证、多维度分析和缓解策略探索。不足之处在于：1）缓解策略实验规模过小（链式思考仅3个模型，激活引导仅3个模型），结论的普适性受限；2）激活引导的实验结果实际显示了安全性能下降（TRR降低），论文对此的讨论略显不足，可能误导该方法的潜力。
清晰度 (1.8/2)：论文结构清晰，问题定义明确，图表设计较好地辅助了结论传达。方法描述和实验设置基本清晰，部分细节（如激活引导中具体层的选择）可进一步阐明。
影响力 (1.5/2)：该工作为多模态大模型安全领域提供了重要的新基准和实证发现，预计将直接推动音频安全评估的研究，具有明确的领域内影响力。其发现对模型开发者和安全部署具有直接的参考价值。
开源 (0.3/1.5)：论文明确提出了AOR-Bench数据集，但未提供公开的下载链接或数据仓库地址。已知使用了Whisper和CosyVoice等开源组件，但核心贡献（基准本身）的开源程度不足，影响了可复现性和社区贡献度。
可复现性 (0.8/1.5)：论文描述了详细的构建流程和评估指标，但关键的AOR-Bench数据集未开源，使得外部研究者无法直接复现其基准上的评估实验。缓解策略部分的提示模板和具体参数在附录中提供，有助于部分复现，但激活引导的层选择等细节有待公开。
工程/实践价值 (0.5/1)：论文提出的基准和评估框架对检测和衡量音频模型的过度拒绝问题具有直接的工程实践价值，可帮助开发者改进模型的安全策略。缓解策略部分虽为初步探索，但也指出了潜在的应用方向。

🚨 局限与问题

基准生态效度存疑：AOR-Bench的核心依赖Sora-2生成视频再提取音频作为背景。这类合成音频可能缺乏真实世界声学环境的复杂性（如混响、噪声、重叠声源），导致基准场景过于“理想化”，可能高估了模型从背景中提取信息的能力，或使得结论在真实部署场景下的适用性打折扣。
评估指标的逻辑基础需夯实：MB-Score调和平均连接的ORR和TRR，其实验基础并不对等。ORR在500个精心设计的伪有害样本上测试，而TRR则在500个“独立有害”语音样本上测试。这两组样本的语音内容、声学环境（有无背景）都不同，其“拒绝难度”并不相同。因此，MB-Score作为“平衡”指标的有效性需要更严谨的理论或实验支撑。
缓解策略评估不充分且结论需谨慎解读：1）链式思考虽然降低了ORR，但论文未详细分析其对模型响应质量和延迟的影响，也未充分讨论是否可能被恶意用户利用来绕过安全防护。2）激活引导的实验结果（图6）明确显示，在降低ORR的同时，TRR和MB-Score均下降了。这表明该方法在减轻过度拒绝的副作用时，也破坏了模型原有的安全判断能力，是一种“得不偿失”的权衡。论文对此的解读不够批判性，容易给读者留下“激活引导有效”的片面印象。
结论的普遍性声明过强：论文声称“过度拒绝是当前LALMs中一个普遍存在且非平凡的问题”，这一结论主要基于12个模型在单一基准AOR-Bench上的表现。由于基准本身的合成属性和场景限制，这一结论的强度可能被高估。需要更多在真实场景、更多样化数据集上的验证。
与模态无关的过度拒绝基准的对比缺失：论文多次提及过度拒绝是多模态现象，但未将AOR-Bench的结果与经典的文本过度拒绝基准（如XSTest）进行任何定量或定性的对比分析，未能清晰刻画出音频模态过度拒绝问题的独特性和严重程度。

📷 论文图片

← 返回 2026-06-23 语音/音乐/音频论文速递

📄 AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries?#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文