多用户 | 语音/音乐/音频论文速递

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #语音对话系统 #基准测试 #隐私保护 #多用户 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #隐私保护 #多用户学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳），深圳湾区研究院）通讯作者：未明确说明（根据署名惯例，最后一位作者Zhizheng Wu可能为通讯作者，但论文未明确标注）。作者列表： Yuxiang Wang (香港中文大学（深圳），深圳湾区研究院) Hongyu Liu (香港中文大学（深圳）) Dekun Chen (香港中文大学（深圳）) Xueyao Zhang (香港中文大学（深圳）) Zhizheng Wu (香港中文大学（深圳），深圳湾区研究院，澳门城市大学，Amphion Technology Co., Ltd.) 💡 毒舌点评亮点：论文像一位敏锐的侦探，为“语音大模型在共享环境中如何保守秘密”这一被忽视的关键问题立了案、建了卷宗（三层级基准），并通过大规模“审讯”（评估）揪出了当前模型“嘴不严”（交互隐私能力弱）的通病，为领域敲响了警钟。短板：然而，论文的“破案”能力（分析）远强于“结案”能力（解决方案）。其提出的微调路径更像是一个证明方向可行的“示例”，而非一个完整、鲁棒的解决方案。同时，整个“案发现场”（基准）完全由合成语音构成，尽管做了验证，但“真实犯罪现场”（真实隐私泄露场景）的复杂性可能被低估。 🔗 开源详情代码：论文中未提及具体代码仓库链接，但承诺将开源基准数据集、训练集和微调模型。模型权重：承诺开源基于Kimi-Audio微调的模型权重（“Ours: Kimi-Audio-sft”）。数据集：承诺公开VoxPrivacy基准数据集（32.86小时）、Real-VoxPrivacy验证子集（586 utterances）以及用于训练的4000+小时数据集。具体获取方式未在提供的内容中说明。 Demo：论文开头提供了一个Demo页面链接：https://myflashbarry.github.io/VoxPrivacy.github.io/。复现材料：附录提供了详尽的材料，包括：所有提示模板（生成、润色、评估）、评估标准详细规则（A/B/C分类）、训练集统计数据与示例、对抗攻击详情、说话者验证能力分析等。论文中引用的开源项目：CosyVoice2（TTS）， Whisper-large-v3（ASR）， Deepseek， Gemini， ChatGPT（用于数据生成），以及多个用于构建训练集的公开语音/音频数据集。 📌 核心摘要问题：随着语音语言模型（SLS）进入智能家居等多用户共享环境，模型需要区分不同说话者以管理信息流。一个关键的未被评估的能力是“交互隐私”——即防止��个用户的私密信息被泄露给另一个用户。现有基准要么只评估对话能力，要么只关注全局敏感信息，忽略了依赖上下文和说话者身份的隐私。方法核心：提出VoxPrivacy，首个系统评估SLS交互隐私的基准。其核心是设计了三层级任务结构：Tier 1（遵循“别告诉别人”的直接命令）、Tier 2（使用声纹作为密钥，只向主人披露）、Tier 3（在无明确指令下，自主推断信息是否私密并加以保护）。基准包含7107个样本，32.86小时英中双语合成音频，并构建了一个小型真人录音子集（Real-VoxPrivacy）用于验证。创新性：与已有工作相比，VoxPrivacy首次将交互隐私和说话者感知的响应生成作为独立的评估维度；其三层任务设计覆盖了从简单指令到复杂常识推理的能力谱；基准构建结合了多LLM生成、自动清洗、人工验证和可控TTS合成，保证了质量和多样性。主要实验结果：对9个SLS的评估显示，交互隐私是当前模型的重大缺陷。大多数开源模型在Tier 2和Tier 3上的准确率接近50%（随机猜测）。强闭源模型（如Gemini-2.5-pro）表现更好，但在更难的Tier 3（主动推理）上也出现明显性能下降。关键数据见下表。在Real-VoxPrivacy上的评估证实了合成数据上的结论。表2: Tier 1（直接命令）部分模型性能（Accuracy (%)） ...