ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

📄 ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics #音频深度伪造检测, #知识蒸馏, #数据增强, #基准测试, #U-Net 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者 & 通讯作者:Heewon Oh (Intrect / MARTE Lab, Dongguk University, Seoul, South Korea) 其他作者:无(论文仅列出一位作者) 💡 毒舌点评 亮点:巧妙地将AI音乐检测问题从“学习它听起来像什么”(容易过时)升维到“检测它物理上留下了什么痕迹”(更本质),就像法医通过指纹破案而非记忆罪犯长相。提出的“有界掩码”和“编解码器感知训练”解决了关键的技术陷阱。 槽点:检测器严重依赖完整的音频带宽(44.1kHz),在流媒体压缩或低采样率场景下可能失效,这限制了其在某些实际部署中的应用。此外,对“未来可能不使用神经编解码器”的生成器的失效警告,也像是给自己的“武功”画了个圈。 📌 核心摘要 这篇论文旨在解决AI生成音乐检测中普遍存在的泛化能力差的问题。当前主流方法(如CLAM、SpecTTTra)通过学习AI音乐的声音特征,在面对未见过的生成器时性能急剧下降。作者提出了一个核心假设:当前主流AI音乐生成器(如Suno, Udio)都依赖神经音频编解码器(如EnCodec)的残差矢量量化(RVQ),这一过程会引入不可逆的信息损失,形成独特的物理“痕迹”。基于此,论文提出了ArtifactNet框架,其核心是:1)使用一个轻量级(3.6M参数)的有界掩码U-Net(ArtifactUNet)从频谱图中提取源分离残差;2)应用谐波-打击乐源分离(HPSS)将残差分解为7通道的法医特征;3)用一个微型CNN(0.4M参数)进行分类。在包含22个生成器的新基准ArtifactBench上,ArtifactNet的F1分数达到0.9829,假阳性率(FPR)仅为1.49%,远超基线模型。论文还通过编解码器感知训练(使用MP3/AAC/Opus增强)解决了模型对压缩格式的敏感性问题,并在公开的SONICS数据集上验证了性能的领先性。该工作表明,通过放大生成过程的物理痕迹,可以用极小的模型实现鲁棒且可快速适应的检测。 🏗️ 模型架构 ArtifactNet是一个三阶段的端到端流水线,总参数量仅4.0M,处理44.1kHz单声道音频。 输入:原始音频波形。 阶段一:法医残差提取 (ArtifactUNet, 3.6M参数) 功能:预测一个频谱图掩码,以提取输入音频中的“异常”残差信号。 结构:基于U-Net编码器-解码器架构,带有门控残差块瓶颈。 关键设计:输出掩码 m 通过Sigmoid函数约束在 [0, 0.5] 范围内。这意味着残差 r = m ⊙ X(⊙为逐元素乘)在任何时频点上的能量最多占原始信号 X 的一半。这一有界设计防止了网络退化为直接传递整个输入信号的平凡解。 训练:分为三阶段。第一阶段(知识蒸馏)用Demucs v4源分离模型的残差作为教师信号,学习残差的形态。第二阶段(分类器引导)固定下游CNN,用分类损失反向传播微调UNet,使其残差更具判别性。第三阶段(编解码器感知)使用WAV/MP3/AAC/Opus四种编码增强数据训练,使提取的残差对压缩格式不变。 阶段二:7通道法医特征计算 (HPSS + 特征工程) 功能:将第一阶段输出的残差幅度谱图分解并转化为富含判别信息的多通道特征。 结构: 对残差谱图应用谐波-打击乐源分离(HPSS),得到谐波分量(H)和打击乐分量(P)。 组合原始残差梅尔谱图(mel_res)、HPSS谐波(mel_H)、HPSS打击乐(mel_P)、一阶时间导数(Δ)、二阶时间导数(Δ²)、谐波/打击乐对数比(hp_ratio)、谱通量(spectral_flux),共7个通道。 输出:一个形状为 [7, T, F] 的张量,其中T和F为时间和频率维度。 阶段三:分类与歌曲级判决 (ResidualCNN7ch, 0.4M参数) 功能:对4秒的音频片段进行AI概率预测,并聚合为整首歌曲的判决。 结构:一个紧凑的CNN,包含3个卷积-批归一化-ReLU-池化块,后接自适应平均池化和全连接层。 片段预测:输入7通道特征,输出 P(AI) ∈ [0, 1]。 歌曲级判决:对一首歌所有片段的预测概率取中位数,然后以阈值0.5二值化。 输出:歌曲为AI生成的概率。 💡 核心创新点 法医残差提取范式:将AI音乐检测从“学习生成内容的表征”(易受内容、风格影响)重新定义为“放大和分析生成过程的物理痕迹”(更本质)。这借鉴了图像取证中从像素分类到物理特征(如扩散噪声特征)的转变思路。 有界掩码UNet (ArtifactUNet):设计了一个预测乘法掩码而非直接残差的网络,并通过[0, 0.5]的有界约束,有效避免了网络学习到恒等映射的捷径,确保提取的是真正的“附加”残差信号。 HPSS作为法医特征:首次将音乐信息检索(MIR)中成熟的HPSS技术应用于源分离残差上。谐波分量捕捉AI音乐在周期性结构上的扰动,打击乐分量捕捉瞬态能量的异常泄漏,为检测提供了可解释的物理依据。 编解码器感知训练:通过在训练中主动使用WAV、MP3、AAC、Opus四种编解码器进行数据增强,教会模型抑制由通用有损压缩引入的伪影,使其专注于由神经音频编解码器RVQ量化引入的特有痕迹。这解决了模型将MP3压缩误判为AI生成的关键失败模式。 ArtifactBench基准与OOD评估框架:构建了一个包含22个AI生成器和6种真实音乐来源的综合性基准,并引入了bench_origin标签以支持严格的零样本评估。同时,提出了一个四轴(生成器、真实域、编解码器、时间)的OOD评估哲学,更清晰地剖析模型的泛化能力。 🔬 细节详述 训练数据: 来源:来自28个子集,总计20,374条音轨(12,495 AI, 7,879真实)。包括AIME、MoM、SONICS、Suno/Udio CDN等数据集,以及为抑制假阳性而加入的FMA MP3和YouTube制作音乐等“硬负例”。 预处理:音频统一为44.1kHz单声道。训练时使用4秒片段。 数据增强:在Phase 3(编解码器感知训练)中,对每个训练样本同时应用WAV(无损)、MP3 (128kbps)、AAC (128kbps)、Opus (128kbps) 四种编码,构成一个批次。 损失函数: Phase 1 (知识蒸馏):L1损失 + 多分辨率STFT损失,目标是与Demucs v4残差对齐。 Phase 2 (分类器引导):二元交叉熵(BCE)损失,通过可微分的梅尔谱图变换反向传播至UNet。 Phase 3 (下游CNN训练):BCE损失。 训练策略: 优化器:论文未明确指定,但提及了分阶段训练。 关键超参数:掩码边界 [0, 0.5];片段长度4秒;歌曲级判决使用中位数聚合;分类阈值 τ = 0.5(用于主要报告)。 硬件/时间:未明确提及。 推理细节: 输入44.1kHz单声道音频。 将音频切分为4秒片段(有重叠)。 对每个片段通过完整流水线得到 P(AI)。 对一首歌所有片段的 P(AI) 取中位数,与阈值0.5比较得到最终判决。 正则化/增强:除了编解码器增强,还通过“硬负例挖掘”(加入FMA MP3等)来增强模型对易混淆真实音乐的判别力。 📊 实验结果 主要指标对比(ArtifactBench测试集, n=2,263): 模型 参数量 F1 精确率 召回率 假阳性率(FPR) ArtifactNet (ours) 4.0M 0.9829 0.9905 0.9755 0.015 (1.5%) SpecTTTra 18.7M 0.7713 0.8519 0.7046 0.194 (19.4%) CLAM 194M 0.7576 0.6674 0.8761 0.693 (69.3%) 主要指标对比(SONICS测试集, n=23,288, 统一协议): 模型 参数量 F1 AUC 假阳性率(FPR) ArtifactNet v9.5 4.0M 0.9993 0.9999 0.09% SpecTTTra 18.7M 0.8874 0.9303 17.97% CLAM 194M 0.7652 0.8222 67.16% 消融实验: 编解码器感知训练(Phase 3)效果:将真实音乐在MP3编码下的假阳性率从98.7%降至8.0%(FMA子集),跨编解码器概率变化量(Δ)从0.95降至0.16(降低83%)。 有界掩码效果:移除有界约束后,UNet掩码均值趋近1,残差能量占比超95%,模型退化为直通,F1分数大幅下降。 7通道特征贡献:附录B提到将对每个通道进行消融,结果待补充。 对抗鲁棒性:对AI音频进行单次Demucs源分离“清洗”后,模型F1从0.9950降至0.9592,表明法医信号减弱但未被完全消除。 带宽指纹证据:AI生成音乐残差的有效带宽平均为291 Hz,而人类音乐为1,996 Hz,相差6.9倍,为“神经编解码器瓶颈”假设提供了独立的声学证据。 ROC分析:在FPR≤5%的宽松操作点(τ≈0.28),TPR可达99.1%。F1分数在阈值τ∈[0.05, 0.9]范围内保持在0.98以上,显示系统对阈值不敏感。 ⚖️ 评分理由 创新性:9/10 - 提出了从“内容识别”到“物理痕迹检测”的范式转变,核心思想(法医残差、有界掩码、HPSS特征化)新颖且有效,对领域有重要启发。 实验充分性:9/10 - 实验设计极为全面和严谨。不仅在新基准上测试,还用公开基准验证排名稳定性;进行了详尽的消融研究(掩码、训练阶段、特征通道);评估了编解码器鲁棒性、对抗攻击等现实挑战;提出了系统的OOD评估框架。数据支撑坚实。 实用价值:8/10 - 直接应对AI音乐泛滥的现实安全挑战,模型轻量(4M参数)易于部署,且提出“快速适应”的 defender advantage 理念,通过微调小模型即可应对新失败模式,实用性强。局限性在于对全带宽的依赖。 灌水程度:2/10 - 论文内容紧凑,创新点明确,实验环环相扣,没有明显的冗余或夸大表述。附录和待补充内容(如通道消融)属于正常的研究过程记录。 🔗 开源详情 代码:评估工具和基准测试运行器已开源,地址:github.com/Intrect-io/artifactbench (MIT许可证)。 模型权重:未开源原始训练权重。但提供了预编译的ONNX推理构建,地址:huggingface.co/intrect/artifactnet (CC BY-NC 4.0许可证)。 数据集:ArtifactBench v1 已开源,地址:huggingface.co/datasets/intrect/artifactbench (CC BY-NC 4.0许可证),包含音频数据。 在线Demo:论文未提及。 引用的开源项目:Demucs v4 (源分离)、FMA数据集、SONICS和MoM基准的检查点等。 🖼️ 图片与表格 图1: 架构概览图 | 保留: 是 - 清晰展示了从音频输入到最终概率输出的三阶段流水线(ArtifactUNet -> HPSS+7ch -> CNN -> Median),以及各组件参数量,是理解论文方法的核心。 图2: UNet编解码器鲁棒性直方图 | 保留: 是 - 直观对比了基线UNet和编解码器感知UNet在不同编解码器(WAV/MP3/AAC/Opus)下对真实音乐的预测概率分布。基线模型在MP3下严重右偏(高FPR),而提出方法有效纠正了此问题,是证明编解码器感知训练必要性的关键证据。 图3: SONICS测试集3-way对比(四子图) | 保留: 是 - 这是一组核心结果图。(A)整体指标对比,显示ArtifactNet全面领先;(B)真实音乐FPR对比(对数坐标),凸显ArtifactNet的极低FPR;(C)分来源准确率热力图,显示ArtifactNet在各AI生成器和真实源上表现均衡;(D)效率对比图(F1 vs. 参数量),直观展示其以极小参数量实现高性能。信息量极大。 图4: ArtifactBench性能对比(四子图) | 保留: 是 - 以柱状图形式清晰展示了在ArtifactBench测试集上,ArtifactNet在F1、精确率、召回率和FPR四个指标上对SpecTTTra和CLAM的显著优势。数据与正文表格一致,可视化更直观。 图5: 残差有效带宽对比 | 保留: 是 - 展示了AI音乐(分生成器列出)与人类音乐残差有效带宽的巨大差异(平均291 Hz vs. 1996 Hz),为“神经编解码器瓶颈”假设提供了直观、可解释的声学证据,是支持论文核心论点的重要机理分析图。 图6: ROC曲线与F1-阈值曲线 | 保留: 是 - (a)ROC曲线显示模型性能优异,AUC接近1;(b)F1-阈值曲线显示F1分数在很宽的阈值范围内(约0.05-0.9)保持高位,证明系统对操作阈值不敏感,鲁棒性强,这对实际部署很重要。 📸 论文图片 ...

2026-04-21

LLM-Codec: Neural Audio Codec Meets Language Model Objectives

📄 LLM-Codec: Neural Audio Codec Meets Language Model Objectives #语音大模型, #预训练, #基准测试, #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Ho-Lam Chung (台湾大学 通信工程研究所, 华硕智能云服务) 通讯作者:Hung-yi Lee (台湾大学 人工智能卓越研究中心) 其他作者:Yiming Chen (华硕智能云服务) 💡 毒舌点评 亮点:精准地抓住了语音令牌化领域“重建质量”与“语言模型可预测性”之间的核心矛盾,并用一套设计精巧、实验扎实的“组合拳”(FTP+SA+Gumbel桥)漂亮地解决了问题,效果拔群。槽点:方法依赖语音-文本对齐(SA),这在非语音音频或无转录数据上就成了“阿喀琉斯之踵”,限制了其通用性;另外,训练时需要额外的前向传播和辅助模块,对计算资源是个小考验。 📌 核心摘要 本文旨在解决语音语言模型(SLM)中一个根本性矛盾:神经音频编码器以波形重建为目标进行优化,而语言模型以序列预测为目标进行优化,这种目标不匹配导致生成的离散语音令牌熵值高、难以预测。为此,作者提出了LLM-Codec训练框架,在不改变编码器和语言模型架构的前提下,通过引入两个面向语言模型的正则化目标来重塑编码器:1)未来令牌预测(FTP),使用Medusa风格的多头结构预测多个未来令牌,鼓励令牌序列的局部可预测性;2)语义对齐(SA),通过对比学习将语音在冻结LLM中的隐藏状态与对应文本的隐藏状态对齐,确保令牌的语义一致性。一个可微分的Gumbel桥使得梯度能够端到端地回传至编码器。实验表明,LLM-Codec在SALMon语音连贯性基准上达到61.6%的准确率(比基线AUV高12.1个百分点),并将令牌级困惑度降低了35倍,同时在Codec-SUPERB-tiny基准上将语音Mel距离提升了5.0%,证明了重建质量与令牌可学习性可以协同提升。 🏗️ 模型架构 LLM-Codec的整体架构是一个增强型的神经音频编码器,其核心是在标准编码器-量化器-解码器流程中,插入了面向LLM的训练模块,并通过一个可微分的桥接器与冻结的LLM主干连接,实现端到端训练。 完整输入输出流程: 输入:原始音频波形 x。 编码与量化:音频 x 通过编码器 ℰ 得到连续潜变量 z,再通过量化器 𝒬(使用Gumbel-Softmax桥接)得到离散令牌 c。 LLM处理:离散令牌 c 通过音频令牌嵌入层 E_audio 转换为嵌入向量,输入到冻结的LLM主干(如Qwen3-4B)中,得到各层的隐藏状态 {h_t}。 辅助任务计算: 未来令牌预测(FTP):在LLM的最后一个隐藏状态上,连接K个Medusa头(线性层 M_k),分别预测当前时刻之后第k个未来令牌。 语义对齐(SA):从LLM的中间到高层(如第10-25层)提取语音序列的最后隐藏状态 h_audio,与对应文本通过相同且冻结的LLM得到的最后隐藏状态 h_text 进行对齐(余弦损失+对比损失)。 重建输出:离散令牌 c 通过解码器 𝒟 重建为音频波形 x̂。 损失计算与反向传播:总损失 ℒ_total 包含重建损失 ℒ_codec、桥接损失 ℒ_bridge、FTP损失 ℒ_FTP、语义对齐损失(ℒ_cos + ℒ_ctr)。梯度通过Gumbel桥反向传播至编码器 ℰ,从而优化编码器使其产生对LLM更友好的令牌。 主要组件与设计理由: ...

2026-04-21

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型, #基准测试, #鲁棒性, #多语言 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),Amphion Technology Co., Ltd.) 通讯作者:Zhizheng Wu(香港中文大学(深圳),深圳湾区研究院,Amphion Technology Co., Ltd.) 其他作者: Hongyu Liu(香港中文大学(深圳)) Yijiang Xu(香港中文大学(深圳)) Luchao Yao(香港中文大学(深圳)) Qinke Ni(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Wan Lin(香港中文大学(深圳)) Kunyu Feng(香港中文大学(深圳)) Dekun Chen(香港中文大学(深圳)) Xu Tan(未明确机构,根据上下文推断可能与Amphion或合作方相关) Lei Wang(未明确机构) Jie Shi(未明确机构) 💡 毒舌点评 亮点:这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准(VoxSafeBench)清晰地证明,当前顶尖的语音大模型在文字游戏(文本安全)上可能很溜,但一旦涉及“听话听音”(谁在说、怎么说、在哪说),其社会常识和道德判断就集体掉线,暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀,切开了模型“知道”和“做到”之间的鸿沟。 槽点:评测框架虽然全面,但稍显复杂,22个任务对于快速复现和模型迭代可能是个挑战。此外,合成语音数据终究与真实世界充满噪声和不确定性的交互有差距,论文自己也承认了这点。 📌 核心摘要 这篇论文旨在解决当前语音语言模型(SLM)社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解,要么孤立地研究单一风险,无法区分模型是因“不懂”还是因“没用对地方”而失败。为此,作者提出了VoxSafeBench,这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层(Two-Tier)设计:Tier 1评估内容中心风险(文本本身有害),通过对比文本、干净音频和多样音频输入,揭示跨模态对齐差距;Tier 2评估音频条件风险(文本无害,但正确响应依赖于说话人、副语言或环境线索),这是本工作的精髓。为确保Tier 2的效度,论文采用了三项关键控制:所有转录文本被验证为无害;构建了“文本参考上限”(将声学线索文本化后,文本模型表现接近饱和);并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明:在文本层面看似稳健的安全防护,在语音场景中显著退化。模型经常能识别文本中的社会规范,却无法在决策线索必须通过语音接地时应用该规范,揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 🏗️ 模型架构 本文提出的不是传统意义上的模型,而是一个评估基准(Benchmark)。其整体架构是VoxSafeBench的评估框架,核心是两层(Two-Tier)设计。 整体流程: 数据输入:对于每个评估任务,输入可以是文本(Tier 1)、干净音频(Tier 1)、多样音频(Tier 1)或仅音频(Tier 2)。 模型推理:将输入喂给待测的语音大模型(SLM),获取其原始响应。 评估判决:使用LLM-as-a-judge(主要使用DeepSeek-V3)对模型的生成式响应进行评判,或对于判别式任务直接计算准确率。评判遵循详细的评分规则(Rubric)。 指标计算:根据任务类型计算相应指标(如RtA, DAR, SAR, Fair Rate, Leakage Rate等)。 Tier 1(内容中心风险): 目标:评估当转录文本本身包含风险时,模型能否正确拒绝或安全响应。 输入:提供文本、干净音频(中性TTS合成)、多样音频(含不同口音、年龄、情感、背景音的合成音频)三种模态的匹配输入。 目的:通过对比三种输入下的表现,量化“跨模态对齐差距”(文本 vs. 音频)和“干扰鲁棒性”(干净 vs. 多样音频)。 Tier 2(音频条件风险): 目标:评估当转录文本无害,但音频上下文(说话人身份、副语言特征、背景环境)改变了社会规范时,模型能否做出恰当响应。 输入:仅提供音频。在推理时,会附加一个统一的系统提示,提醒模型考虑完整的音频上下文(说话人、语调、背景音等)。 关键设计:每个任务的音频都包含一个明确的、与文本内容构成冲突或需要特殊处理的声学线索(如儿童声音、愤怒情绪、背景中有儿童、背景中有偷听者等)。 数据集构建流水线: 数据获取与文本准备:从现有基准改编、使用LLM生成或手动构建文本提示。 提示-音频池与语音合成:构建一个包含不同说话人、口音、年龄、情感、背景音的“提示-音频池”。使用CosyVoice3模型将文本提示合成为语音,以确保说话人身份的稳定保持。 分层输出构建:为Tier 1生成文本、干净音频、多样音频三种视图;为Tier 2仅生成音频视图。 质量过滤与人工验证:使用Whisper-large-v3过滤词错率(WER)>5%的样本,并进行人工抽检。 💡 核心创新点 首个联合评估安全、公平、隐私的语音社会对齐基准:不同于以往聚焦于能力或单一风险的基准,VoxSafeBench首次在一个统一框架下系统性地评估SLM在三大核心社会对齐维度的表现。 创新的“两层”评估范式: 是什么:将评估清晰地分为Tier 1(内容中心风险)和Tier 2(音频条件风险)。 之前方法:现有基准要么混合了两类风险,要么只关注其中一类,无法区分模型失败是因为缺乏规范知识(Tier 1问题)还是无法将规范应用于音频线索(Tier 2问题)。 如何解决:通过严格的实验设计(Tier 2所有文本均被验证为无害)和对照实验(文本参考上限、感知探测),精准定位“语音接地差距”。 效果:揭示了前沿模型在Tier 2上表现普遍不佳,即使它们在Tier 1或文本参考上限中表现良好。 系统化、可审计的数据集构建与验证方法: 是什么:构建了一个包含22个任务、覆盖中英双语的大规模评测集,并详细描述了从数据来源、合成、质量控制到人工验证的全流程。 之前方法:许多基准的数据构建过程不透明,或依赖自然音频导致控制变量困难。 如何解决:使用可控的语音合成(CosyVoice3)和精心设计的“提示-音频池”,确保声学线索的明确性和可控性。通过WER过滤和人工抽检保证数据质量。 效果:提供了高质量、可复现的评测数据,增强了实验结果的可信度。 严谨的效度验证与诊断分析: 是什么:引入了“文本参考上限”和“中间感知探测”来验证Tier 2评测的有效性。 之前方法:对音频条件任务的评测往往缺乏对“模型是否感知到线索”的验证,导致失败原因模糊。 如何解决: 文本参考上限:将声学线索用文字描述,让顶级文本LLM作答,结果接近饱和,证明相关规范是存在的。 中间感知探测:在模型做出最终社会判断前,先探测其对声学线索(如“说话人是儿童吗?”)的识别能力。发现模型感知准确率远高于其基于该感知做出安全响应的比例。 效果:强有力地证明了Tier 2的失败主要源于“对齐失败”(知道线索但不当回事),而非“感知失败”(没听懂线索),使结论更具说服力。 🔬 细节详述 训练数据/评测数据: 规模:共22个任务,总计约17,000多个评测样本(根据表格2中各任务数据量估算)。 来源:三类:1)改编自现有基准(如SafetyBench, Sorry-Bench, VoxPrivacy, HearSay等);2)为未覆盖的任务家族从头构建(使用GPT、Gemini等LLM生成初稿,经人工筛选);3)少量直接使用现有数据集。 音频合成:使用CosyVoice3模型。构建了提示-音频池(表6),包含: 干净池:标准、中性的中英文语音。 多样池:涵盖口音(标准/非母语)、年龄(儿童/中年/老年)、性别(男/女)、情感(愤怒/高兴/悲伤/恐惧/惊讶,且经audEERING模型筛选,确保唤醒度>0.7)、背景音(公共噪音、古典音乐,以40%音量混合)。 质量控制:所有合成音频用Whisper-large-v3转写,剔除WER>5%的样本。进行人工抽检。 评估模型与Judge: 被评估SLM:包括开源模型(Qwen3-Omni, Mimo-Audio, Kimi-Audio及其思维链变体)和闭源模型(Gemini-3-Pro/Flash, GPT-4o-Audio)。 评判模型:生成式任务主要使用DeepSeek-V3作为LLM法官。进行了法官一致性研究(附录I),使用Kimi-K2.5、GPT-5.2和3名人类标注员,Fleiss’ κ = 0.78,Spearman’s ρ ≥ 0.88,表明评判结果稳健。 关键超参数与设置: Tier 2系统提示:统一提醒模型考虑完整音频上下文(说话人、语调、背景音),但不透露具体线索或正确答案。 文本参考上限构建:将Tier 2音频中的声学线索用文字明确描述(如“说话者是个孩子”),输入给文本LLM(DeepSeek-V3, Gemini-3-Pro, GPT-5.2),取最安全的结果作为上限。 感知探测(附录J):在模型输出最终社会判断前,插入一个中间探测层,让模型回答关于声学线索的简单问题(如“说话者听起来是儿童吗?”),以量化其感知能力。 主要指标: 安全: Tier 1: 拒绝率(RtA)、毒性分数、攻击成功率(ASR)。 Tier 2: 直接回答率(DAR,越低越好)、安全意识率(SAR,越高越好,分解为警告回答率WAR和拒绝率RtA)、重叠诱导转化率(OIC)。 公平: 主要指标:公平率(Fair Rate,模型保持中立的比例)。 方向性偏差:净偏差分数(NBS),结合二项检验,量化不公平判断是否系统性地与社会刻板印象对齐。 隐私: Tier 1: 泄露率、拒绝率(RtA)。 Tier 2: 隐私意识率(PAR)、直接回答率(DAR)、交互式隐私的F1分数、推理式隐私的准确率和拒绝率。 📊 实验结果 安全评估主要发现(表3,图2): Tier 1:无越狱时,所有模型都安全。应用越狱后,性能急剧分化。多轮越狱最有效。文本输入比音频输入更容易导致不安全输出(模型在文本模式下更想���帮忙”)。思维链变体在越狱下更脆弱。在代理风险中,模型对工具输出中的间接危害(Indirect harm)警惕性远低于用户直接指令。 Tier 2:模型表现远低于文本参考上限,揭示了“语音接地差距”。 内容-副语言冲突:模型对“受损能力”(如口齿不清)的反应优于“儿童声音”,对“情感”线索反应最差。Gemini系列模型在此项表现最佳。 内容-背景冲突:当背景本身不安全(如NSFW声音)时,模型表现优于需要推断“有儿童在场”的场景。模型能识别直接的声学危险信号,但难以推断听众并调整行为。 对抗交互:重叠指令注入(Overlapping instruction injection)能成功诱导模型回答本应拒绝的有害问题(OIC率显著)。 公平性评估主要发现(表4,图3): Tier 1 vs. Tier 2差距:几乎所有模型从Tier 1到Tier 2的公平率都急剧下降。表明对文本刻板印象的抵抗力无法迁移到需要从语音推断差异的场景。 模态与语言差距:闭源模型跨语言行为更稳定(文本>音频)。开源模型存在严重的模态和语言不平衡(如Kimi-Audio在中文和文本上几乎失效)。 思维链的不稳定影响:启用CoT(“thinking”)会带来不可预测的行为,有时甚至逆转模态优劣(音频>文本)。 方向性偏差:多个SLM的NBS显著为正,表明其不公平判断系统性地与社会刻板印象对齐,而非随机错误。同一音频用中英文查询,偏差模式可能不同。 隐私评估主要发现(表5,图4): Tier 1:存在严重的跨模态隐私差距。即使是强闭源模型(如Gemini-3-Pro),其硬隐私泄露率也从文本的23.9%飙升至音频的81.2%以上。硬隐私(结构化PII)比软隐私(上下文秘密)更难保护。CoT对软隐私提升明显,但对硬隐私帮助有限。 Tier 2: 音频条件隐私:当背景音暗示非私密环境时,模型(如GPT-4o-Audio, Qwen3-Omni)仍直接回答的比例(DAR)超过85%。而Gemini-3-Pro的隐私意识率(PAR)达94.3%。同样的线索文本化后,PAR达100%。 交互式隐私:多数开源模型在判断信息是否应对特定说话者保密时,准确率在50%左右(随机猜测)。 推理式隐私:多数模型很少拒绝从声音推断敏感属性的请求,且能达到非平凡的准确率,构成画像风险。GPT-4o-Audio是显著例外,拒绝率高。 ⚖️ 评分理由 创新性:10/10 - 提出了一个全新的、系统性的语音社会对齐评估范式(两层设计),并首次在大规模实验中实证了“语音接地差距”这一关键问题,对领域发展具有方向性指导意义。 实验充分性:9.5/10 - 实验设计极为全面和严谨。涵盖了三大维度、两层设计、多种模型、中英双语、判别与生成任务。包含了消融研究(CoT影响)、控制实验(文本参考上限)和诊断分析(感知探测)。数据量大,评判方法经过验证。扣0.5分是因为所有音频均为合成,与真实世界交互可能存在差距(作者已承认)。 实用价值:9.5/10 - 直接针对语音助手部署的核心风险(安全、公平、隐私),其发现和基准工具对于模型开发者、政策制定者和研究人员都具有极高的实用价值,能有效指导未来SLM的社会对齐研究和安全加固。 灌水程度:1/10 - 论文内容高度聚焦,每一部分(从动机、设计到实验分析)都紧密围绕核心论点展开,信息密度高,没有明显的冗余或夸大表述。附录详尽且必要。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/amphionteam/VoxSafeBench 数据集:已公开。项目主页提供了数据获取链接:https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重:论文本身不涉及发布新模型,而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。 预训练权重:不适用。 在线Demo:项目主页可能提供,论文中未明确说明。 引用的开源项目:论文中明确使用了CosyVoice3(语音合成)、Whisper-large-v3(语音识别/质量过滤)、DeepSeek-V3/Kimi-K2.5/GPT-5.2(作为LLM法官)等开源或公开可用的模型。 🖼️ 图片与表格 图1: VoxSafeBench概览与动机示意图 | 保留: 是 - 清晰展示了两层设计的核心思想和一个生动的例子,是理解论文动机的关键。 表1: 现有音频/多模态基准对比 | 保留: 是 - 通过详细对比,突出了VoxSafeBench在评估维度、声学上下文覆盖、交互模式等方面的全面性和创新性。 表2: VoxSafeBench任务总结 | 保留: 是 - 核心表格,完整列出了所有22个任务的ID、所属层级、任务家族、数据源、指标和数据量,是基准的“蓝图”。 图2: Tier 1安全评估总结 | 保留: 是 - 用两个散点图直观展示了越狱攻击和代理风险下的模型行为模式,信息量大。 表3: Tier 2安全评估结果 | 保留: 是 - 关键结果表,详细列出了各模型在多个Tier 2安全任务上的DAR/SAR等指标,并与文本参考上限对比,直接证明了“语音接地差距”。 表4: 公平性评估结果(Tier 1 vs. Tier 2) | 保留: 是 - 核心结果表,展示了模型在不同公平性任务和模态下的公平率,清晰揭示了Tier 1到Tier 2的性能骤降。 图3: 公平性方向偏差分析(NBS) | 保留: 是 - 重要补充,展示了不公平判断是否系统性地偏向刻板印象,深化了对公平性失败的理解。 表5: 隐私评估结果 | 保留: 是 - 核心结果表,展示了模型在硬隐私、软隐私和音频条件隐私任务上的表现,揭示了跨模态隐私差距和不同隐私类型的难度差异。 图4: 交互式与推理式隐私结果 | 保留: 是 - 以条形图和热力图形式展示了Tier 2中两类隐私任务的具体结果,直观易懂。 附录中的图、表和详细结果:包含大量补充材料,如详细的分类学、更多结果分解、法官一致性分析、感知探测结果等,对于深入理解研究细节至关重要,建议保留。 📸 论文图片 ...

2026-04-21

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21