VoxSafeBench: Not Just What Is Said, but Who, How, and Where
📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型, #基准测试, #鲁棒性, #多语言 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),Amphion Technology Co., Ltd.) 通讯作者:Zhizheng Wu(香港中文大学(深圳),深圳湾区研究院,Amphion Technology Co., Ltd.) 其他作者: Hongyu Liu(香港中文大学(深圳)) Yijiang Xu(香港中文大学(深圳)) Luchao Yao(香港中文大学(深圳)) Qinke Ni(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Wan Lin(香港中文大学(深圳)) Kunyu Feng(香港中文大学(深圳)) Dekun Chen(香港中文大学(深圳)) Xu Tan(未明确机构,根据上下文推断可能与Amphion或合作方相关) Lei Wang(未明确机构) Jie Shi(未明确机构) 💡 毒舌点评 亮点:这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准(VoxSafeBench)清晰地证明,当前顶尖的语音大模型在文字游戏(文本安全)上可能很溜,但一旦涉及“听话听音”(谁在说、怎么说、在哪说),其社会常识和道德判断就集体掉线,暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀,切开了模型“知道”和“做到”之间的鸿沟。 槽点:评测框架虽然全面,但稍显复杂,22个任务对于快速复现和模型迭代可能是个挑战。此外,合成语音数据终究与真实世界充满噪声和不确定性的交互有差距,论文自己也承认了这点。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/amphionteam/VoxSafeBench 数据集:已公开。项目主页提供了数据获取链接:https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重:论文本身不涉及发布新模型,而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。 预训练权重:不适用。 在线Demo:项目主页可能提供,论文中未明确说明。 引用的开源项目:论文中明确使用了CosyVoice3(语音合成)、Whisper-large-v3(语音识别/质量过滤)、DeepSeek-V3/Kimi-K2.5/GPT-5.2(作为LLM法官)等开源或公开可用的模型。 📌 核心摘要 这篇论文旨在解决当前语音语言模型(SLM)社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解,要么孤立地研究单一风险,无法区分模型是因“不懂”还是因“没用对地方”而失败。为此,作者提出了VoxSafeBench,这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层(Two-Tier)设计:Tier 1评估内容中心风险(文本本身有害),通过对比文本、干净音频和多样音频输入,揭示跨模态对齐差距;Tier 2评估音频条件风险(文本无害,但正确响应依赖于说话人、副语言或环境线索),这是本工作的精髓。为确保Tier 2的效度,论文采用了三项关键控制:所有转录文本被验证为无害;构建了“文本参考上限”(将声学线索文本化后,文本模型表现接近饱和);并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明:在文本层面看似稳健的安全防护,在语音场景中显著退化。模型经常能识别文本中的社会规范,却无法在决策线索必须通过语音接地时应用该规范,揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 ...