基准测试 | 语音/音频论文速递

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Yanyun Wang 通讯作者：未在论文中明确指定作者列表：Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu（所有作者所属机构信息未在论文正文中提供，仅在作者姓名下方列出，未明确给出具体机构名称） 💡 毒舌点评本文的核心亮点是提出了一个范式级别的创新——“声学干扰”，巧妙地将攻击载荷从“恶意音频内容”解耦，利用生成模型先验中的良性声学特征作为通用触发器，这思路极具启发性且实验验证充分。然而，一个必须严肃质疑的根本问题是：整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么，AIA对目标LALM的“通用性”是否隐含了一个关键假设，即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性？如果目标LALM的音频处理架构与Bark差异巨大，这种“声学干扰”的迁移性还能成立吗？论文对此核心假设缺乏深入的理论或实验讨论，使得“通用性”的宣称打了折扣。此外，所有评估严重依赖GPT-4o作为裁判，尽管引入了外部模型验证，但“运动员兼裁判”的风险依然存在。 📌 核心摘要问题：现有针对大音频语言模型（LALM）的越狱攻击范式（优化语义、控制声学参数、添加扰动）都将恶意音频内容作为攻击载荷，存在效率低、耦合性强等根本局限。本文挑战了这种必要性。方法核心：提出“声学干扰”新范式和“声学干扰攻击”（AIA）。核心是利用特定的“声学潜在语义”（ALS）——从生成模型（Bark）先验中挖掘的、内容良性的内在副语言特征——作为通用触发器，干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现，无需实例特定优化。两阶段攻击流程：先尝试纯文本越狱，若失败则从ALS库中依次选取音频与文本组合查询。创新点：首次发现并定义“声学干扰”现象；提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA；通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制；构建了可解释的12维ALS索引系统。实验结果：在10个LALM（7开源，3闭源）和5个数据集上验证了AIA的有效性。以表2为例，在JBB数据集上，AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%，对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中（表3），AIA在多个模型上取得了SOTA或接近SOTA的攻击效果，且查询开销相对较低。实际意义：揭示了当前LALM跨模态安全对齐的根本性脆弱性，即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。局限性：攻击有效性高度依赖于作为代理模型的Bark；未探讨防御策略；部分基线对比数据来自不同评测标准（JALMBench的宽松评分）。 🔗 开源详情代码：https://flaai.github.io/AIA_page 模型权重：论文中未提及数据集： JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为：https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为：https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为：https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/HarmBench。 Demo：论文中未提及在线演示链接，但提供了项目主页 https://flaai.github.io/AIA_page。复现材料：论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。论文中引用的开源项目： Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名，链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型，无开源链接。 🏗️ 方法概述和架构整体流程概述：本文提出的声学干扰攻击（AIA）是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示（text jailbreak）和目标LALM。第一阶段（文本测试），系统先用原始文本多次查询LALM；若文本本身未能成功越狱，则进入第二阶段（音频干扰），从预构建并排序的通用声学干扰音频库（ALS武器库）中依次选取音频，与文本组合成多模态查询，直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech

📄 Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech #语音摘要 #评测协议 #数据集 #基准测试 #人类标注 ✅ 7.2/10 | 前50% | #语音摘要 | #评测协议 | #数据集 #基准测试 | arxiv 学术质量 5.7/8 | 影响力 0.7/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Kaavya Chaparala (Johns Hopkins University) 通讯作者：未明确说明作者列表：Kaavya Chaparala, Thomas Thebaud, Jesús Villalba López, Laureano Moro-Velazquez, Peter Viechnicki, Najim Dehak (均为Johns Hopkins University) 💡 毒舌点评亮点：本文针对高质量语音摘要数据集稀缺这一核心痛点，进行了一项极为扎实且系统的方法论研究。通过精心设计10种人类标注工作流，严格控制了输入模态和编辑方式两个关键变量，实验设计堪称消融研究的典范。其核心发现——迭代同伴编辑能有效弥补音频摘要的信息量短板，使其在CREAM指标上与文本摘要及强大LLM摘要持平——具有直接且重要的实践指导意义，为在缺乏转录文本的场景下收集高质量语音数据提供了可行路径。引入CREAM进行无参考信息量对比评估也是一个有价值的尝试。短板：然而，研究的规模和泛化性存在严重硬伤，仅基于13段电话对话的结论能否推广至会议、访谈等多样场景令人怀疑。作者虽承认无法评估“韵律信息”这一核心动机，但这不仅仅是方法论的缺口，更使得“音频摘要价值”的论断在根基上未能闭环——我们究竟在多大程度上保留了音频的独特信息？此外，成本与效率的权衡被完全忽略，使得该流程的实用性大打折扣。 📌 核心摘要要解决什么问题：高质量语音摘要基准数据集稀缺，创建数据集需要可靠的人类标注。研究旨在系统比较不同人类标注工作流（变量：输入模态、编辑方式）产出的摘要质量，并评估人类产出是否可能劣于强大的LLM，以找到最佳标注方法。方法核心：设计并实施了10种人类标注工作流，变量为输入模态（音频A、文本T、或两者）和编辑方式（无编辑、自我编辑、单次同伴编辑、迭代同伴编辑）。将产出摘要与4个LLM（3个文本LLM，1个音频LLM）的摘要进行多维度比较，核心评估指标为CREAM（基于关键事实对比的无参考信息量评估）。与已有方法相比新在哪里：首次系统性地研究了“编辑流程”（特别是多轮、单模态参考的迭代同伴编辑）对语音摘要质量的影响，超越了以往仅比较输入模态的研究范式。应用CREAM框架作为无参考指标，横向比较了大规模人类与LLM摘要集的信息量。主要实验结果：假设1验证：未经编辑的音频摘要（A，CREAM 0.19）在信息量上显著低于未经编辑的文本摘要（T，CREAM 0.38），但两者信息密度相近。编辑效果：自我编辑（ATself, 0.28）和混合模态单次同伴编辑（ATApeer, 0.26）虽优于原始音频摘要，但仍显著落后于文本摘要。单一模态（音频）参考的单次同伴编辑（A-peer-2, 0.41）即可使音频摘要的信息量与文本摘要（T-peer-2, 0.44）无显著差异。迭代同伴编辑（A-peer-5, 0.48）达到了最高的人类音频摘要信息量。假设2验证：经过迭代同伴编辑的音频摘要（A-peer-2至A-peer-5，CREAM 0.41-0.48）与GPT-4o (0.51)、GPT-4o Audio (0.59)等强大LLM的摘要在信息量上无显著差异。仅轻量级Llama-3.2-1B (0.30)显著低于多数迭代编辑后的人类摘要。关键数据见下表（摘要自论文Table 1）：工作流 CREAM分数（信息量）压缩率信息密度与“初始音频(A)”的CREAM差异显著性 T 0.38 0.55 0.0022 显著更高 A 0.19 0.27 0.0020 (基准) TAself 0.38 0.55 0.0022 显著更高 ATself 0.28 0.35 0.0026 显著更高 TTApeer 0.36 0.48 0.0024 显著更高 ATApeer 0.26 0.36 0.0022 显著更高 T-peer-2 0.44 0.67 0.0020 显著更高 A-peer-2 0.41 0.56 0.0023 显著更高 T-peer-3 0.43 0.78 0.0015 显著更高 A-peer-3 0.42 0.62 0.0021 显著更高 T-peer-4 0.40 0.66 0.0016 显著更高 A-peer-4 0.41 0.75 0.0017 显著更高 T-peer-5 0.39 0.65 0.0016 显著更高 A-peer-5 0.48 0.87 0.0023 显著更高 GPT-4o 0.51 0.63 0.0025 显著更高 Gemini-2.5-flash 0.64 0.59 0.0034 显著更高 Llama-3.2-1B 0.30 0.60 0.0015 显著更高 GPT-4o Audio 0.59 0.65 0.0027 显著更高实际意义：验证了在无需转录文本（如ASR效果差或成本高的领域）的场景下，可通过迭代同伴编辑的音频标注工作流，收集到与有文本辅助时同等信息量的高质量语音摘要数据集。主要局限性：数据规模极小（仅13段对话）且领域单一（仅限电话对话），结论泛化性存疑；使用了两组不同训练程度的标注员可能引入混杂变量；未能开发任何指标评估摘要对韵律信息的捕捉，使得“音频摘要价值”的核心论点缺乏方法论上的直接验证；未讨论迭代编辑的高昂时间与人力成本。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集： Switchboard Dialogue Act (SWBDA)：论文中引用 (Godfrey et al., 1992)。为获取此数据集，需通过LDC (Linguistic Data Consortium) 申请，原始出处为 https://catalog.ldc.upenn.edu/LDC99S42。 CallHome：论��中引用 (Canavan et al., 1997)。为获取此数据集，需通过LDC (Linguistic Data Consortium) 申请，原始出处为 https://catalog.ldc.upenn.edu/LDC2001S97。论文明确指出，实验使用的是这两个数据集的原始音频和人工转录文本，并进行了预处理（截断对话、去除对话标签）。注意：论文本身并未提供指向数据存储库（如HuggingFace Datasets）的直接链接。 Demo：论文中未提及复现材料：论文在附录A和B中提供了详细的复现信息。附录A：列出了实验所用的13段对话的具体ID（CallHome 9个， Switchboard 4个）及其转录文本的字数统计。附录B：提供了用于生成LLM摘要（Gemini-2.5-Flash, GPT-4o, GPT-4o Audio preview, Llama-3.2-1B-Instruct）和进行G-Eval及CREAM评估的完整提示词模板。这些是复现实验的关键。论文方法部分（第3节）详细描述了十种人工标注工作流程、标注员培训流程、数据预处理步骤以及所有评估指标（如ROUGE, BertScore, CREAM等）的计算方法。论文中引用的开源项目： Switchboard Dialogue Act (SWBDA)：原始数据集论文引用。获取方式如上所述，需通过LDC申请。 CallHome：原始数据集论文引用。获取方式如上所述，需通过LDC申请。 GPT-4o：由OpenAI提供，论文中引用 (OpenAI et al., 2024)。这是一个商业/闭源模型，论文中提供了其摘要生成的提示词。 Gemini-2.5-Flash：由Google提供，论文中引用。这是一个商业模型（提供免费层级），论文中提供了其提示词。 Llama-3.2-1B-Instruct：由Meta提供，论文中引用 (Grattafiori et al., 2024)。这是一个开源模型，但论文本身未提供模型权重链接。其开源仓库通常位于：https://github.com/meta-llama/llama-models。 gpt-4o-audio-preview-2025-06-03：由OpenAI提供，论文中引用。这是一个闭源的音频LLM模型，论文中提供了其提示词。 G-Eval：论文中引用 (Liu et al., 2023)。这是一个用于评估的框架，其原始代码仓库位于：https://github.com/nlpiiit/G-Eval。 CREAM：论文中引用 (Gong et al., 2025)。这是一个用于评估会议摘要信息量的框架，论文中详细描述了其评估流程。其原始实现可能链接为：https://github.com/ruipeng-guo/CREAM。 RoBERTa (用于计算BertScore)：论文中在计算BertScore时隐含使用了此类预训练模型，原始论文引用 (Liu et al., 2019)。其开源代码和模型在Hugging Face Transformers中：https://huggingface.co/roberta-base。 BART (用于计算BartScore)：论文中在计算BartScore时隐含使用了此类预训练模型，原始论文引用 (Lewis et al., 2019)。其开源代码和模型在Hugging Face Transformers中：https://huggingface.co/facebook/bart-large-cnn。 🏗️ 方法概述和架构整体流程概述：本文是一项面向标注方法论研究的系统性实验，而非提出端到端的AI模型。其核心流程为：数据准备与预处理 → 设计并实施10种人类标注工作流（核心处理环节） → 设置LLM基线 → 多维度评估与分析所有产出的摘要。实验框架的核心目标是隔离和比较“输入模态”与“编辑流程”两个变量对人类产出摘要质量的影响。 ...

Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities

📄 Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities #音频问答 #基准测试 #多语言 #鲁棒性 #语音大模型 ✅ 6.5/10 | 前50% | #音频问答 | #基准测试 | #多语言 #鲁棒性 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Heejoon Koo (伊利诺伊大学厄巴纳-香槟分校) 通讯作者：未说明作者列表：Heejoon Koo (伊利诺伊大学厄巴纳-香槟分校) 💡 毒舌点评亮点：论文精准地捕捉到了一个被忽视但至关重要的现实问题——大型音频语言模型（LALMs）在类似鸡尾酒会的环境中面对多语言语义干扰时的选择性注意力缺失。其核心贡献在于设计并应用了一个巧妙的、诊断性强的评估框架（MUSA），首次系统性地量化了这一能力短板，并揭示了“单一设置下的强理解能力并不等于干扰下的鲁棒性”这一关键现象，为模型评估设立了新的维度。短板：评估框架虽精妙，但构建在TTS合成数据之上，其生态效度存疑。研究止步于揭示问题（模型在干扰下易犯“干扰项干扰”错误），并未对模型自身信息处理机制进行更深层的剖析或提出缓解方案。此外，评估格式（MCQ）和固定的评估提示（源接地提示）限制了结论的普适性，可能测试的是指令遵循能力而非内在的注意力机制。 📌 核心摘要要解决什么问题：论文旨在评估大型音频语言模型（LALMs）在类似鸡尾酒会的场景中，面对同时播放的、语义相关的多语言干扰对话时，能否选择性地关注并正确理解目标英语对话，从而完成源接地的推理任务。现有评估基准缺乏对这种受干扰的选择性注意力能力的直接测试。方法核心是什么：论文提出了MUSA（Multilingual Selective Attention）基准。每个测试项包含一个英语目标对话和一个同时播放的、语义相关但语言不同（英语、西班牙语、韩语、中文）的干扰对话，要求模型基于目标对话回答多项选择题（MCQ）。评估在三种递进式设置下进行：“单一”设置（仅目标流）、“分离”设置（使用分离器分离后分别输入模型）、“鸡尾酒会”设置（直接输入混合信号），并在不同信噪比（SNR）下分析性能。与已有方法相比新在哪里：MUSA填补了现有评估的空白。它不同于专注于转录或分离质量的多说话人ASR/分离基准（如CHiME-6, WSJ0-2mix），也不同于评估单流音频理解的通用LALM基准（如AIR-Bench, AudioBench）或关注声学扰动的信任基准（如AudioTrust）。MUSA首次系统性地评估了LALMs在面对并发的、语义合理的多语言干扰时，进行源接地推理的能力，并引入了证据源诊断分析来归类错误类型。主要实验结果如何：对六个LALMs的评估表明，单一设置下的高准确率并不能保证在鸡尾酒会设置下的鲁棒性。例如，Gemini-2.0-Flash在单一设置下准确率为0.955，但在0dB SNR的鸡尾酒会设置下骤降至0.242。误差分析显示，在干扰下，大部分错误是“干扰项干扰”（Distractor Interference），即模型错误地基于干扰流进行推理。分离设置虽然减少了声学重叠，但未能解决源归属问题，模型常常自信地输出基于错误流的答案。模型单一准确率分离设置准确率鸡尾酒会设置准确率 (0dB SNR) Qwen2-Audio 0.773 0.529 0.466 MERaLiON-2 0.757 0.693 0.601 Audio-Flamingo-3 0.908 0.758 0.580 Qwen2.5-Omni 0.650 0.518 0.351 GPT-4o mini Audio 0.772 0.586 0.636 Gemini-2.0-Flash 0.955 0.952 0.242 实际意义是什么：研究结果强调了选择性听觉注意力对于LALMs在真实世界高风险场景（如航空、医疗）中可靠部署的重要性。它揭示了当前模型的一个关键缺陷：它们可能无法正确处理并发信息流，导致推理基于错误来源。这为未来LALMs的设计和训练提供了明确的改进方向——需要将选择性注意力作为首要目标。主要局限性是什么：主要局限包括：1) 数据集：规模较小（200项）且全部由TTS合成，缺乏自然语音的韵律、说话人变异和真实信道噪声；2) 评估范围：目标仅限于英语对话、双人单声道混合、使用单一的开源分离器（ClearerVoice-Studio），未测试非英语目标、多说话人或更复杂环境；3) 方法不对称性：开源和闭源模型在分离设置下的处理方式不同（分别输入 vs 串联输入），且ECE分析仅限于开源模型；4) 评估格式：多项选择题格式无法评估自由生成中可能出现的跨流信息混合。 🔗 开源详情代码：论文中未提及具体代码仓库链接。摘要与结论部分提及“Data and code will be released upon publication”，表明代码将在论文发表后开源，但未提供当前可用链接。模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope）。论文评估了四个开源权重（open-weight）模型（Qwen2-Audio, MERaLiON-2, Audio-Flamingo-3, Qwen2.5-Omni）和两个闭源模型（GPT-4o mini Audio, Gemini-2.0-Flash），但未在论文中提供前者的官方权重链接。数据集：MUSA数据集。论文中未提及具体的获取链接或开源协议。摘要与结论部分明确表示“Data and code will be released upon publication”。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及独立的复现指南、训练配置或检查点。论文附录（Appendix B）提供了实验设置、解码参数、提示模板和评估指标的详细信息，这些构成了复现所需的关键材料，但并非独立发布的资源包。论文中引用的开源项目： ClearerVoice-Studio：一个语音分离工具，在实验中用于分离阶段。论文提供了其引用（Zhao et al. 2025），并给出GitHub链接：https://github.com/X-Perseverance/ClearerVoice-Studio。 multilingual-e5-large：一个多语言嵌入模型，用于计算目标-干扰项语义相似度。论文提供了其引用（Wang et al. 2024），但未在文中给出具体链接。 🏗️ 方法概述和架构整体流程概述：本文的核心方法是设计并应用一个多阶段的评估框架（MUSA）来系统测试LALMs的选择性注意力能力。流程包括：1）构建包含目标与多语言干扰对话的标准化评估数据集；2）设计三种递进式的评估设置（单一、分离、鸡尾酒会）来隔离不同因素（声学重叠 vs. 源归属混淆）；3）在控制变量（SNR、干扰语言、领域）下运行评估，并收集性能指标与错误类型数据，进行诊断分析。 ...

ViMU: Benchmarking Video Metaphorical Understanding

📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Qi Li（新加坡国立大学）通讯作者：Xinchao Wang（新加坡国立大学）作者列表：Qi Li（新加坡国立大学）、Xinchao Wang（新加坡国立大学） 💡 毒舌点评该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧，覆盖全面，任务定义（尤其是强制无提示）具有启发性。然而，作为一项评估工作，其核心贡献是提供了一个“考卷”，而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型（GPT-5.4）进行核心生成与验证，这既引发了关于其自身偏差和“原创性”的疑问，也使得完全复现其构建过程变得困难。实验分析虽然深入，但主要揭示了现有模型的不足，缺乏对基准本身局限性的充分量化验证。 📌 核心摘要解决的问题：现有视频理解模型主要关注字面视觉内容，缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。方法核心：提出了ViMU（视频隐喻理解）基准，包含588个视频和2352个问题，覆盖四大任务：开放解释（OE）、证据定位（EG）、修辞机制识别（RM）和社会价值信号识别（SV）。基准构建采用多阶段、迭代优化的流水线，结合前沿LLM（GPT-5.4）生成与人工专家审核。与已有方法相比的新颖性：不同于聚焦于隐含物理关系或单一现象（如幽默）的现有基准，ViMU专注于社会文化语境下的广义“潜台词”理解，并强制采用“无提示”（hint-free）的评估方式，要求模型在不被告知具体线索的情况下进行推断。主要实验结果：对16个前沿多模态大模型（MLLMMs）的评估显示，即便是最强的闭源模型，其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。模型日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明：1）模型普遍倾向于预测更通用、安全的类别，而低估更隐晦的社会编码类别；2）在传统视频理解任务上表现优异的模型，在隐喻理解上不一定领先。 ...

语音/音频论文速递 2026-05-17

语音/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜（2 篇，按分数降序）排名论文评分分档主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

A Benchmark for Early-stage Parkinson's Disease Detection from Speech

📄 A Benchmark for Early-stage Parkinson’s Disease Detection from Speech #语音生物标志物 #基准测试 #医疗音频 #模型评估 ✅ 7.2/10 | 前30% | #语音生物标志物 | #基准测试 | #医疗音频 #模型评估 | arxiv 学术质量 5.6/8 | 影响力 0.7/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Terry Yi Zhong (Centre for Language Studies, Radboud University, Nijmegen, the Netherlands) 通讯作者：论文中未明确指定通讯作者。作者列表及邮箱显示，通讯联系可能为第一作者或资深作者 Bastiaan R. Bloem。作者列表：Terry Yi Zhong, Cristian Tejedor-Garcia, Khiet P. Truong (Centre for Language Studies, Radboud University, the Netherlands), Janna Maas, Bastiaan R. Bloem (Center of Expertise for Parkinson and Movement Disorders, Radboud University Medical Center, the Netherlands), Louis ten Bosch (Centre for Language Studies, Radboud University, the Netherlands) 💡 毒舌点评在语音PD检测领域众说纷纭的“巴别塔”困境中，本文试图建立一座通用的“基准高塔”。其系统性整合和临床考量令人钦佩，但作为高塔地基的公开语料库（仅两个数据集）却略显单薄，可能使其宣称的普适性在面对更复杂的现实世界“地基”时产生动摇。 ...

From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents

📄 From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents #语音对话系统 #模型评估 #语音大模型 #基准测试 ✅ 6.3/10 | 前50% | #模型评估 | #基准测试 | #语音对话系统 #语音大模型 | arxiv 学术质量 5.3/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度中高 👥 作者与机构第一作者：Md Tahmid Rahman Laskar（Dialpad Inc.）通讯作者：未说明作者列表：Md Tahmid Rahman Laskar（Dialpad Inc.）、Xue-Yong Fu（Dialpad Inc.）、Seyyed Saeed Sarfjoo（Dialpad Inc.）、Quinten McNamara（Dialpad Inc.）、Jonas Robertson（Dialpad Inc.）、Shashi Bhushan TN（Dialpad Inc.）（原文未列出通讯作者） 💡 毒舌点评这篇论文精准地解决了一个企业级痛点：在已有文本工具调用数据的基础上，低成本评估语音交互的性能损失。其核心“基准转换”框架思路清晰，实用性强，且通过大量对比实验给出了“模型和任务决定架构选择”的清醒结论，避免了对端到端模型的盲目乐观。然而，其根本局限在于将TTS合成的“理想化”语音等同于真实用户语音进行评估，这使其结论更像一个“乐观上限估计”。此外，评估仅基于两个相对简单的文本基准，对于更复杂的工具调用场景（如多步调用）的普适性存疑，框架本身也未提出提升性能的新方法。 ...

FutureSim: Replaying World Events to Evaluate Adaptive Agents

📄 FutureSim: Replaying World Events to Evaluate Adaptive Agents #基准测试 #大语言模型 #自适应代理 #测试时适应 ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv 学术质量 6.1/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Shashwat Goel (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems) 通讯作者：未说明作者列表：Shashwat Goel (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems), Nikhil Chandak (Max Planck Institute for Intelligent Systems, Tübingen AI Center), Arvindh Arun (Institute for AI, University of Stuttgart), Ameya Prabhu (Tübingen AI Center, University of Tübingen), Steffen Staab (Institute for AI, University of Stuttgart, University of Southampton), Moritz Hardt (Max Planck Institute for Intelligent Systems, Tübingen AI Center), Maksym Andriushchenko (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems), Jonas Geiping (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems, Tübingen AI Center)（注：论文标注前三位作者贡献相等） 💡 毒舌点评亮点：成功构建了一个既“接地”（基于真实新闻）又“可控”（可重放、可消融）的长期自适应评估环境，巧妙地将预测任务转化为衡量AI世界模型演化能力的探针。实验设计（如“直接查询”vs“顺序更新”对比、统一初始预测的适应能力隔离）精准地量化了当前模型的核心短板，并为测试时适应、记忆、搜索等新兴研究方向提供了清晰的实验范式。短板：评估流程的核心环节——自由形式答案的匹配——完全依赖于一个商业化的LLM（DeepSeek V3.2），其匹配的一致性、可靠性及对不同回答格式的偏差未经系统验证，这为整个基准的评分可信度埋下隐患。此外，尽管框架开源，但复现核心结果需要支付高昂的闭源模型API或编程工具订阅费用（GPT 5.5/Codex, Claude Code），并承担模拟运行本身的高成本，实质上限制了无资源团队的复现能力。 ...

PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection

📄 PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection #语音生物标志物 #数据集 #基准测试 #医疗音频 📝 5.4/10 | 前50% | #语音生物标志物 | #基准测试 | #数据集 #医疗音频 | arxiv 学术质量 4.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Madhurananda Pahar（谢菲尔德大学计算机系）通讯作者：未明确说明（论文未明确标注通讯作者。根据作者贡献描述，Heidi Christensen负责监督研究、贡献研究设计、解释结果并提供整体项目指导）。作者列表：Madhurananda Pahar（谢菲尔德大学计算机系），Caitlin H. Illingworth（谢菲尔德大学计算机系），Bahman Mirheidari（谢菲尔德大学计算机系），Hend Elghazaly（谢菲尔德大学计算机系），Fritz Peters（谢菲尔德大学计算机系），Sophie Young（谢菲尔德大学计算机系），Wing-Zin Leung（谢菲尔德大学计算机系），Labhpreet Kaur（谢菲尔德大学计算机系），Daniel Blackburn（谢菲尔德大学SITraN研究所），Heidi Christensen（谢菲尔德大学计算机系） 💡 毒舌点评亮点：该数据集在真实世界远程评估场景下进行了全面、严谨的技术验证（包括统计分析、嵌入空间分析和基准建模），其设计（如多任务、保留环境噪声）旨在解决当前数据集生态效度不足的核心痛点，为领域提供了宝贵的标准化评估资源。短板：其创新性更多体现在“工程集成”和“数据规模提升”上，而非方法论或核心认知科学上的突破；此外，作为一个“基准”数据集，其提供的基线模型（LR, MLP, DistilBERT等）相对简单且已过时，未能展示更先进或针对该任务定制化的建模策略，削弱了其作为“挑战”推动技术进步的潜力。 📌 核心摘要要解决什么问题：现有用于通过语音自动检测早期认知障碍（如轻度认知障碍MCI、痴呆症）的临床验证数据集存在规模小、多在控制环境下采集、任务单一、数据共享受限等问题，阻碍了可复现的机器学习研究和临床转化。方法核心是什么：论文提出并发布了PROCESS-2数据集，这是一个通过远程数字评估平台（CognoMemory）在真实世界环境中采集的大规模语音语料库，包含200名健康对照（HC）、150名MCI和50名痴呆症患者，共约21小时语音。数据涵盖三种认知任务：语义流畅性任务（SFT）、语音流畅性任务（PFT）和Cookie Theft图片描述任务（CTD），并附带人工转录本和临床元数据（如MMSE）。与已有方法相比新在哪里：与早期数据集（如DementiaBank）相比，PROCESS-2在生态效度（远程、真实环境）、任务多样性（三种任务）、参与者规模（400人）上显著提升。与近期工作相比，它旨在提供一个更平衡、更标准化且数据丰富的基准，同时包含详尽的技术验证（统计、嵌入空间几何、基线建模）以证明其作为基准的质量和可用性。主要实验结果如何：技术验证表明，数据集在人口统计学（年龄、性别）和记录质量（时长、信噪比）上各组间可比，临床标签（MMSE）在组间有显著区分。嵌入空间分析显示语言特征能较好地区分疾病组。基准实验（表7）表明，基于语言模型的分类器（如DistilBERT）在2分类任务上F1最高达0.85，3分类最高达0.59，回归RMSE最低达3.87，优于经典模型，且使用自动转录本性能下降可控。实际意义是什么：PROCESS-2提供了一个标准化、可复现的基准，可加速语音生物标志物、多模态融合、跨环境鲁棒性等方向的研究。其真实世界数据特性有助于开发更具临床部署潜力的模型。主要局限性是什么：数据集中痴呆症组样本量相对较小（50人）；仅使用英国英语，跨语言适用性未验证；部分参与者缺少MMSE评分；所提供的基线模型较为基础，未探索更先进的建模方法；ASR转录本错误率较高（40%-60%）。 🔗 开源详情代码：https://github.com/CognoSpeak/PROCESS-2。所有复现统计分析、嵌入生成和基线建模实验所需的代码及环境均在此仓库发布，并存档于 Zenodo: https://doi.org/10.5281/zenodo.19900225。模型权重：论文中未提及模型权重的具体链接或获取方式。论文中评估的模型（如DistilBERT, RoBERTa, Wav2Vec 2.0）为公开可用的预训练模型，但本文未提供特定微调后的权重。数据集：PROCESS-2。托管于 Hugging Face: https://huggingface.co/datasets/CognoSpeak/PROCESS-2。访问为受控模式，需提交申请并签署数据使用协议（Data Use Agreement），申请链接即为上述 Hugging Face 仓库页面。 Demo：论文中未提及在线演示或交互式 Demo 链接。复现材料：论文中未提及具体的训练配置文件、超参数设置或模型检查点下载链接。复现基线实验所需的代码、依赖环境及数据集划分已在代码仓库中提供。论文中引用的开源项目： FFmpeg：用于音频格式转换，论文中未提供具体链接。 Silero VAD：用于语音活动检测和信噪比计算，论文中未提供具体链接。 Wav2Vec 2.0：用于语音转文本，论文中未提供具体链接。 Whisper：用于语音转文本，论文中未提供具体链接。 DistilBERT 和 RoBERTa：用作语言模型的Transformer架构，论文中未提供具体链接。 🏗️ 方法概述和架构该论文的核心贡献并非一个新提出的模型架构，而是一个旨在解决关键数据瓶颈的数据集创建、验证与基准化框架。其方法论核心是构建一个大规模、多任务、真实世界的语音数据采集、处理与标准化评估流水线。 ...

语音/音频论文速递 2026-05-15

语音/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...