FutureSim: Replaying World Events to Evaluate Adaptive Agents

📄 FutureSim: Replaying World Events to Evaluate Adaptive Agents #基准测试 #大语言模型 #自适应代理 #测试时适应 ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv 学术质量 6.1/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Shashwat Goel (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems) 通讯作者:未说明 作者列表:Shashwat Goel (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems), Nikhil Chandak (Max Planck Institute for Intelligent Systems, Tübingen AI Center), Arvindh Arun (Institute for AI, University of Stuttgart), Ameya Prabhu (Tübingen AI Center, University of Tübingen), Steffen Staab (Institute for AI, University of Stuttgart, University of Southampton), Moritz Hardt (Max Planck Institute for Intelligent Systems, Tübingen AI Center), Maksym Andriushchenko (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems), Jonas Geiping (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems, Tübingen AI Center)(注:论文标注前三位作者贡献相等) 💡 毒舌点评 亮点:成功构建了一个既“接地”(基于真实新闻)又“可控”(可重放、可消融)的长期自适应评估环境,巧妙地将预测任务转化为衡量AI世界模型演化能力的探针。实验设计(如“直接查询”vs“顺序更新”对比、统一初始预测的适应能力隔离)精准地量化了当前模型的核心短板,并为测试时适应、记忆、搜索等新兴研究方向提供了清晰的实验范式。 短板:评估流程的核心环节——自由形式答案的匹配——完全依赖于一个商业化的LLM(DeepSeek V3.2),其匹配的一致性、可靠性及对不同回答格式的偏差未经系统验证,这为整个基准的评分可信度埋下隐患。此外,尽管框架开源,但复现核心结果需要支付高昂的闭源模型API或编程工具订阅费用(GPT 5.5/Codex, Claude Code),并承担模拟运行本身的高成本,实质上限制了无资源团队的复现能力。 ...

2026-05-15 · 更新于 2026-06-15 · 3 min · 570 words

PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection

📄 PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection #语音生物标志物 #数据集 #基准测试 #医疗音频 📝 5.4/10 | 前50% | #语音生物标志物 | #基准测试 | #数据集 #医疗音频 | arxiv 学术质量 4.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Madhurananda Pahar(谢菲尔德大学计算机系) 通讯作者:未明确说明(论文未明确标注通讯作者。根据作者贡献描述,Heidi Christensen负责监督研究、贡献研究设计、解释结果并提供整体项目指导)。 作者列表:Madhurananda Pahar(谢菲尔德大学计算机系),Caitlin H. Illingworth(谢菲尔德大学计算机系),Bahman Mirheidari(谢菲尔德大学计算机系),Hend Elghazaly(谢菲尔德大学计算机系),Fritz Peters(谢菲尔德大学计算机系),Sophie Young(谢菲尔德大学计算机系),Wing-Zin Leung(谢菲尔德大学计算机系),Labhpreet Kaur(谢菲尔德大学计算机系),Daniel Blackburn(谢菲尔德大学SITraN研究所),Heidi Christensen(谢菲尔德大学计算机系) 💡 毒舌点评 亮点:该数据集在真实世界远程评估场景下进行了全面、严谨的技术验证(包括统计分析、嵌入空间分析和基准建模),其设计(如多任务、保留环境噪声)旨在解决当前数据集生态效度不足的核心痛点,为领域提供了宝贵的标准化评估资源。短板:其创新性更多体现在“工程集成”和“数据规模提升”上,而非方法论或核心认知科学上的突破;此外,作为一个“基准”数据集,其提供的基线模型(LR, MLP, DistilBERT等)相对简单且已过时,未能展示更先进或针对该任务定制化的建模策略,削弱了其作为“挑战”推动技术进步的潜力。 📌 核心摘要 要解决什么问题:现有用于通过语音自动检测早期认知障碍(如轻度认知障碍MCI、痴呆症)的临床验证数据集存在规模小、多在控制环境下采集、任务单一、数据共享受限等问题,阻碍了可复现的机器学习研究和临床转化。 方法核心是什么:论文提出并发布了PROCESS-2数据集,这是一个通过远程数字评估平台(CognoMemory)在真实世界环境中采集的大规模语音语料库,包含200名健康对照(HC)、150名MCI和50名痴呆症患者,共约21小时语音。数据涵盖三种认知任务:语义流畅性任务(SFT)、语音流畅性任务(PFT)和Cookie Theft图片描述任务(CTD),并附带人工转录本和临床元数据(如MMSE)。 与已有方法相比新在哪里:与早期数据集(如DementiaBank)相比,PROCESS-2在生态效度(远程、真实环境)、任务多样性(三种任务)、参与者规模(400人)上显著提升。与近期工作相比,它旨在提供一个更平衡、更标准化且数据丰富的基准,同时包含详尽的技术验证(统计、嵌入空间几何、基线建模)以证明其作为基准的质量和可用性。 主要实验结果如何:技术验证表明,数据集在人口统计学(年龄、性别)和记录质量(时长、信噪比)上各组间可比,临床标签(MMSE)在组间有显著区分。嵌入空间分析显示语言特征能较好地区分疾病组。基准实验(表7)表明,基于语言模型的分类器(如DistilBERT)在2分类任务上F1最高达0.85,3分类最高达0.59,回归RMSE最低达3.87,优于经典模型,且使用自动转录本性能下降可控。 实际意义是什么:PROCESS-2提供了一个标准化、可复现的基准,可加速语音生物标志物、多模态融合、跨环境鲁棒性等方向的研究。其真实世界数据特性有助于开发更具临床部署潜力的模型。 主要局限性是什么:数据集中痴呆症组样本量相对较小(50人);仅使用英国英语,跨语言适用性未验证;部分参与者缺少MMSE评分;所提供的基线模型较为基础,未探索更先进的建模方法;ASR转录本错误率较高(40%-60%)。 🔗 开源详情 代码:https://github.com/CognoSpeak/PROCESS-2。所有复现统计分析、嵌入生成和基线建模实验所需的代码及环境均在此仓库发布,并存档于 Zenodo: https://doi.org/10.5281/zenodo.19900225。 模型权重:论文中未提及模型权重的具体链接或获取方式。论文中评估的模型(如DistilBERT, RoBERTa, Wav2Vec 2.0)为公开可用的预训练模型,但本文未提供特定微调后的权重。 数据集:PROCESS-2。托管于 Hugging Face: https://huggingface.co/datasets/CognoSpeak/PROCESS-2。访问为受控模式,需提交申请并签署数据使用协议(Data Use Agreement),申请链接即为上述 Hugging Face 仓库页面。 Demo:论文中未提及在线演示或交互式 Demo 链接。 复现材料:论文中未提及具体的训练配置文件、超参数设置或模型检查点下载链接。复现基线实验所需的代码、依赖环境及数据集划分已在代码仓库中提供。 论文中引用的开源项目: FFmpeg:用于音频格式转换,论文中未提供具体链接。 Silero VAD:用于语音活动检测和信噪比计算,论文中未提供具体链接。 Wav2Vec 2.0:用于语音转文本,论文中未提供具体链接。 Whisper:用于语音转文本,论文中未提供具体链接。 DistilBERT 和 RoBERTa:用作语言模型的Transformer架构,论文中未提供具体链接。 🏗️ 方法概述和架构 该论文的核心贡献并非一个新提出的模型架构,而是一个旨在解决关键数据瓶颈的数据集创建、验证与基准化框架。其方法论核心是构建一个大规模、多任务、真实世界的语音数据采集、处理与标准化评估流水线。 ...

2026-05-15 · 更新于 2026-06-15 · 3 min · 439 words

语音/音乐/音频论文速递 2026-05-15

语音/音乐/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分 前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分 前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分 前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分 前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分 前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分 前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分 前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分 前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分 前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分 前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分 前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分 前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分 前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分 前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分 前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分 前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分 前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分 前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分 后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分 后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

2026-05-15 · 更新于 2026-06-15 · 15 min · 3187 words

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

📄 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents #语音对话系统 #基准测试 #语音质量评估 #端到端 #语音合成 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Tara Bogavelli(ServiceNow) 通讯作者:Tara Bogavelli(ServiceNow,tara.bogavelli@servicenow.com) 作者列表:Tara Bogavelli(ServiceNow)、Gabrielle Gauthier Melançon(ServiceNow)、Katrina Stankiewicz(ServiceNow)、Oluwanifemi Bamgbose(ServiceNow)、Fanny Riols(ServiceNow)、Hoang H. Nguyen(ServiceNow)、Raghav Mehndiratta(ServiceNow)、Lindsay Devon Brin(ServiceNow)、Joseph Marinier(ServiceNow)、Hari Subramani(ServiceNow)、Anil Madamala(ServiceNow)、Sridhar Krishna Nemala(ServiceNow)、Srinivas Sunkara(ServiceNow) 💡 毒舌点评 论文提出了一个极其详尽且工程上完备的端到端语音智能体评估框架,其模拟验证闭环和双维度指标设计直击当前领域评估不全面的痛点;然而,具有讽刺意味的是,如此严谨的评估工具揭示了一个尴尬的现实:即便是最顶尖的商业语音模型,在可靠性(pass^k)和鲁棒性上依然表现拙劣,且评估成本高昂。这使得该框架短期内更像一面照妖镜,而非即插即用的优化指南。 📌 核心摘要 本文提出了EVA-Bench,一个针对企业级语音智能体的端到端评估框架,旨在解决现有基准测试在生成逼真对话模拟和全面测量语音特定故障模式方面的不足。 方法核心在于一个模拟验证闭环:框架通过一个用户模拟器与被测智能体进行实时bot-to-bot音频多轮对话,并包含一个自动化验证机制,在评分前检测并再生模拟器行为漂移的对话。评估指标方面,引入了两个复合分数:EVA-A(准确性,涵盖任务完成、策略忠实度、语音内容保真)和EVA-X(体验感,涵盖对话推进、口语化简洁度、轮次时机),两者均被设计为适用于级联和端到端架构,支持直接比较。 与已有方法(如τ-Voice, FDB-v3)相比,EVA-Bench的新颖性体现在:1)同时整合了带验证的实时多轮模拟、控制变量的声学扰动套件和架构无关的综合度量体系;2)借鉴了代码生成领域的概念,提出了基于多试次一致性的pass@1, pass@k, pass^k度量,明确区分峰值性能与可靠性能;3)首次包含了对智能体语音输出内容保真度的音频级评估(Speech Fidelity)。 主要实验结果表明:1)在评估的12个系统中,没有一个系统能在EVA-A和EVA-X的pass@1指标上同时超过0.5;2)峰值性能(pass@k)与可靠性能(pass^k)差距巨大,中位数在EVA-A上达到0.44;3)声学扰动(如法语口音、咖啡店噪声)会显著降低性能,且对级联架构的准确性和对端到端架构的体验感影响不同。例如,法语口音导致级联系统任务完成率平均下降10个百分点,而对端到端系统影响甚微。 该工作的实际意义在于为语音智能体提供了首个标准化、全面且公平的跨架构评估工具,其开源发布有望推动该领域研究从孤立组件优化转向端到端系统质量提升。 主要局限性包括:评估依赖于模拟用户,其行为可能无法完全代表真实人类呼叫者;评估成本高昂;当前仅覆盖英语和特定企业领域;LLM裁判可能存在偏差,尤其是对同家族模型;评估框架未涵盖有害内容、隐私泄露等安全维度,也不支持复杂架构(如多智能体)。 ...

2026-05-14 · 更新于 2026-06-15 · 3 min · 545 words

GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language

📄 GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language #基准测试 #几何推理 #多模态模型 ✅ 7.0/10 | 前25% | #几何推理 | #基准测试 | #多模态模型 | arxiv 学术质量 6.9/8 | 影响力 0.7/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jinwoong Kim(北京大学,王选计算机技术研究所) 通讯作者:未说明 作者列表:Jinwoong Kim(北京大学,王选计算机技术研究所)、Rui Yang(北京大学,王选计算机技术研究所)、Huishuai Zhang(北京大学,王选计算机技术研究所) 💡 毒舌点评 亮点:论文提出了一个极具价值的新评估范式——将几何推理的焦点从“答案正确性”或“视觉相似度”转移到“可执行性”和“几何约束满足”上。通过设计一个支持迭代修复的交互式环境(GeoBuildBench),为严格评估模型的结构化推理、规则遵循和错误修正能力提供了一个创新的测试床。这对于理解和改进智能体(Agent)的具身推理能力有重要意义。 短板:论文的“方法”部分更多是环境构建与评估框架设计,而非提出新的模型架构或学习算法。此外,虽然评估了多个前沿模型,但对模型在迭代过程中具体修正策略的分析(如面对特定约束反馈时的推理路径)仍停留在统计层面,缺乏更深入的定性案例研究来揭示“为什么”某些模型修正能力更强。 📌 核心摘要 问题:现有的几何推理基准主要关注文本答案的正确性或生成图像的视觉相似度,忽略了将自然语言描述转化为几何一致、可执行的构造图这一关键且具有挑战性的步骤。这导致模型可能产生“结构性幻觉”——输出看似合理,但内部的几何关系(如平行、相切)或对象引用是错误的。 方法核心:提出GeoBuildBench,一个用于评估几何构造能力的交互式基准和环境。核心任务是:模型根据中文几何题文本,生成一个领域特定语言(DSL)程序来构造几何图形。环境执行程序、渲染图形,并通过一个验证模块检查对象覆盖(所有必需对象是否创建)和几何约束满足(如角度值、距离相等、平行等),随后将结构化反馈(错误、缺失对象、违反的约束)返回给模型,形成“生成-执行-验证-修复”的闭环交互。 创新点:其新意在于:(1) 定义了可执行几何构造这一新的评估任务,而非静态问答或图像生成;(2) 设计了基于几何约束满足(数值验证)而非视觉相似度的客观评估体系;(3) 构建了支持迭代修复的交互式环境,评估模型的闭环推理能力;(4) 通过严格流程构建了一个文本完整、几何可构造的高质量数据集(489个问题)。 实验结果:对GPT-5.1、Gemini-3-Flash、Qwen3-VL-235B和LLaMA-3.2-90B-Vision四个模型进行了评估,最大迭代预算为5步。前沿闭源模型(GPT-5.1, Gemini-3-Flash)成功率较高(78.9%, 75.3%),但开源模型(Qwen3-VL, LLaMA-3.2-Vision)表现显著较差(42.2%, 21.3%)。所有模型普遍存在结构幻觉(如引用未定义对象)和约束违反问题,且利用反馈进行自我修正的能力有限,表现为修复速度慢或幻觉持续。关键数据见下表: 模型 成功率(%) 平均步数(↓) 幻觉数/问题(↓) 缺失对象数(↓) 违反约束数(↓) GPT-5.1 78.9 1.87 0.40 939 1119 Gemini-3-Flash 75.3 1.55 0.34 329 932 Qwen3-VL-235B 42.2 2.30 2.30 2042 1817 LLaMA-3.2-90B-Vision 21.3 2.23 2.38 1823 1584 补充关键细节:Gemini-3-Flash的平均幻觉恢复步数最短(1.17步),表明其从错误中学习的效率最高。在难度分析(Table 18)中,即使是最强的GPT-5.1,在最高难度(Level 4)问题上的成功率也降至65.7%。 实际意义:该基准为评估和理解大模型的结构化输出能力、规则遵循能力和闭环错误修复能力提供了严格框架,揭示了当前多模态模型在将语言精确映射到符号化构造步骤并维持状态一致性方面的弱点,对发展更可靠的几何推理智能体和具身AI有直接启发。 局限性:基准范围限于中国平面几何问题和预定义的DSL及验证条件集;评估结果依赖于固定的交互协议(如5步预算、特定提示模板);对模型如何利用反馈的深层机制分析不足。 🔗 开源详情 代码:https://github.com/ooongs/GeoBuildBench 模型权重:论文中未提及。论文评估了多个第三方模型,但未发布自研模型权重。 数据集:GeoBuildBench 数据集(包含489个中文平面几何问题及标注)。论文未提供独立的数据集下载链接,但代码仓库很可能包含数据集。 Demo:论文中未提及。 复现材料:论文附录(Appendix A-H)提供了详细的复现材料,包括: GeoDSL 快速参考:完整的语法、命令和执行语义(附录A)。 验证语义与失败模式:支持的验证条件类型、对象覆盖检查和数值容差的详细定义(附录B)。 完整系统提示词:用于代理(agent)的完整系统提示词(附录C)。 任务解析与标注提示词:用于数据过滤、清洗和标注几何问题的具体提示词(附录D)。 数据集统计与标注细节:类别分布、构建难度分布及解释(附录E)。 可视化构造示例:一个可构造问题和一个不可构造问题的详细GeoDSL代码与渲染图(附录F)。 详细评估诊断:模型性能的整体诊断、幻觉类型分析、缺失对象分析、验证条件失败分析、反馈利用率指标等(附录G)。 附加评估结果:跨语言评估和按难度分级的成功率分析(附录H)。 论文中引用的开源项目:论文中提到了多个相关工作,包括GeoQA, Geometry3K, Inter-GPS, GMB/GMBL, MagicGeo/MagicGeoBench, GeoUni, AlphaGeometry, GEOS,但未提供其具体开源链接。 🏗️ 方法概述和架构 GeoBuildBench构建了一个代理-环境交互循环,用于评估几何构造能力。核心流程为:输入自然语言几何问题 → 代理生成一个GeoDSL程序 → 几何内核执行程序并更新几何状态 → 渲染器基于状态生成图像 → 验证模块根据任务定义(必需对象和验证条件)检查执行结果,生成通过/失败的结构化反馈 → 将图像与反馈一起返回给代理 → 代理根据反馈迭代修改程序,直到验证通过或达到预算上限。 ...

2026-05-14 · 更新于 2026-06-15 · 2 min · 357 words

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Wei Wu(北京大学) 通讯作者:Hao Tang(北京大学,邮箱:bjdxtanghao@gmail.com) 作者列表:Wei Wu(北京大学),Ziyang Xu(北京大学),Zeyu Zhang(北京大学,项目负责人),Yang Zhao(La Trobe University),Hao Tang(北京大学) 注:论文明确标注前三位作者(Wei Wu, Ziyang Xu, Zeyu Zhang)贡献相等(Equal contribution)。 💡 毒舌点评 本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”,并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式(单人演讲、多人讨论、交互问答)的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而,其主要弱点在于核心贡献更偏向系统集成而非底层技术创新,关键模块(如视频合成、语音生成)的技术细节几乎完全依赖于未说明的外部模型,使得论文的“技术深度”存疑。同时,评估体系严重依赖于可能同源的VLM评判者,缺乏人类评估数据的校准,使得其高分结果的说服力大打折扣。 📌 核心摘要 解决的问题:现有演示视频生成系统大多依赖用户提供完整的源文档(如论文、报告),无法处理简短、开放式的用户查询,并主动获取内容和视觉资源来生成演示视频。 方法核心:提出PresentAgent-2,一个端到端的智能体框架。系统接收用户查询和选定的演示模式,首先将查询提炼为主题,并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源(文本、图片、GIF、视频)。随后,基于这些资源规划演示结构、生成幻灯片和对应模式的脚本(单人演讲为叙述脚本,多人讨论为角色对话脚本,交互问答为基于上下文的回答),合成音频,并将幻灯片、音频和动态媒体(保持GIF/视频的可播放性)合成为最终的演示视频。 与已有方法相比的新颖之处:a) 任务设定开放:首次系统性地研究从开放查询到演示视频的生成,而非从给定文档转换。b) 内容获取主动:集成了针对演示场景优化的“深度研究”模块,主动收集多模态资源。c) 输出模式丰富:在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理:在视频合成中保留了检索到的GIF和视频的动态特性,而非将其转换为静态截图。 主要实验结果:论文构建了名为PresentEval的多模态演示基准测试集,包含60个查询-参考视频对(每种模式20对)。使用不同骨干模型(如Qwen3.5-VL-Plus)进行评估,结果显示系统在客观测验(满分5)和主观评估(满分5)上均取得较高分数(例如,使用Qwen3.5-VL-Plus时,客观测验得分均>4.8,主观评估均分均>4.3)。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。 实际意义:为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式,降低了从问题到结构化多媒体演示视频的制作门槛。 主要局限性:a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限(60例)。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情 代码:https://github.com/AIGeeksGroup/PresentAgent-2 模型权重:论文中未提及模型权重的具体下载链接(如HuggingFace/ModelScope)。 数据集:论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集(60个查询-参考视频对),但未提供其公开获取地址。 Demo:https://aigeeksgroup.github.io/PresentAgent-2 复现材料:论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。 论文中引用的开源项目: Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD:论文中仅在相关工作或表格中提及项目名称和引用,未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统,旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示:接收用户的自然语言查询q和选定的演示模式m,首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ,随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步:q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

2026-05-14 · 更新于 2026-06-15 · 3 min · 434 words

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Nguyen Quang Trung(南洋理工大学,LMMs-Lab) 通讯作者:未说明 作者列表:Nguyen Quang Trung(南洋理工大学,LMMs-Lab),Yiming Gao(南洋理工大学,LMMs-Lab),Fanyi Pu(南洋理工大学,LMMs-Lab),Kaichen Zhang(南洋理工大学,LMMs-Lab),Shuo Sun(约翰霍普金斯大学),Ziwei Liu(南洋理工大学,LMMs-Lab) 💡 毒舌点评 这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题,其IMAVB基准测试的2×2设计堪称教科书式的诊断工具;然而,作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整,其在真实、开放世界场景中的泛化能力和实际部署价值被高估了,诊断本身很彻底,但治疗方案可能只是止痛药。 📌 核心摘要 要解决什么问题:当全模态大语言模型(LLM)遇到与其自身感官输入(视觉、音频)相矛盾的文本前提时,其失败究竟是源于感知层面(未能检测到矛盾)还是行动层面(检测到了但未能在输出中拒绝)?现有的协同性基准测试无法揭示这种失败模式。 方法核心是什么:论文提出了IMAVB(一个500个电影片段的2×2设计基准测试),通过保持视频和音频不变,仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针(分析隐藏状态)和引导对数调整(PGLA,一种推理时干预方法),来诊断模型内部表示与外部行为之间的脱节。 与已有方法相比新在哪里:与现有的跨模态基准测试(如AVHBench)相比,IMAVB使用隐含的虚假前提(而非明确验证提示)、长视频(1-5分钟),并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域,并量化了其模态不对称性(音频接地弱于视觉)。 主要实验结果如何:在8个开源全模态LLM和Gemini 3.1 Pro上,论文发现了显著的“表示-行动鸿沟”:线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提,但模型的实际拒绝率极低(多数开源模型在音频误导性检测上为0%)。PGLA通过将内部信号反馈至输出,在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。 模型 基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么:研究结果表明,提升全模态LLM的感知接地能力,瓶颈可能不在于更大的编码器或更丰富的表示,而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。 主要局限性是什么:基准测试局限于电影领域,可能无法推广到所有视频类型;误导性前提是单次细节交换;PGLA的干预是基于同一基准测试数据训练的,其跨域泛化能力未经验证;对商用模型(Gemini)的分析仅限于行为层面,缺乏表示分析。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”,但未给出具体的GitHub等仓库地址。 模型权重:论文中未提及提供预训练或微调的模型权重链接。 数据集:IMAVB数据集。论文中提及一个匿名访问链接:https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的实验设置、评估协议和实现细节,主要包含在附录中(如Appendix J, L, G)。评估使用了开源框架lmms-eval(链接:https://github.com/EvolvingLMMs-Org/lmms-eval)。所有实验使用温度0、top-p和top-k为1的设置,并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。 论文中引用的开源项目: lmms-eval:开源多模态评估框架。论文中引用为lmms-eval,链接:https://github.com/EvolvingLMMs-Org/lmms-eval。 评估的开源全模态LLM(论文中未提供其官方权重或代码链接,仅列出名称):OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。 商业模型:Gemini 3.1 Pro(通过API评估,未开源)。 数据生成与标注中使用的模型:Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o(论文中未提供这些模型的具体链接)。 其他方法(论文中提及但未提供实现链接):Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构 本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程,包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...

2026-05-14 · 更新于 2026-06-15 · 4 min · 720 words

语音/音乐/音频论文速递 2026-05-14

语音/音乐/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-06-15 · 11 min · 2240 words

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度 中 👥 作者与机构 第一作者:Che Liu (根据作者列表顺序推断) 通讯作者:Fei Tian (tianfei@stepfun.com, StepFun) 作者列表:Che Liu (StepFun, Imperial College London), Lichao Ma (StepFun, Peking University), Xiangyu Tony Zhang (StepFun, The University of New South Wales), Yuxin Zhang (StepFun, Shanghai Jiao Tong University), Haoyang Zhang (StepFun, Peking University), Xuerui Yang (StepFun), Fei Tian (StepFun, 通讯作者) 💡 毒舌点评 论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高,并为此提出了系统化的去偏评测协议(OmniClean),这为社区提供了急需的、更干净的评估工具,具有明确的实用价值;然而,作为核心方法贡献的OmniBoost方案,本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优,缺乏在算法或模型架构层面的根本性创新,且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上,极大地削弱了其结论的普适性与指导意义。 ...

2026-05-13 · 更新于 2026-06-15 · 3 min · 568 words

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

📄 MMTB: Evaluating Terminal Agents on Multimedia-File Tasks #基准测试 #音视频 #系统设计 🔥 60/10 | 前25% | #基准测试 | #系统设计 | #音视频 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Chiyeong Heo(POSTECH GSAI) 通讯作者:Jungseul Ok(POSTECH GSAI, POSTECH CSE) 作者列表:Chiyeong Heo(POSTECH GSAI)、Jaechang Kim(POSTECH GSAI)、Junhyuk Kwon(POSTECH GSAI)、Hoyoung Kim(National AI Research Lab)、Dongmin Park(Krafton AI)、Jonghyun Lee(Krafton AI)、Jungseul Ok(POSTECH GSAI, POSTECH CSE) 💡 毒舌点评 本文定义了一个重要的评估缺口(多媒体文件工作流),并提出了对应的基准(MMTB)和评估框架(Terminus-MM)。核心贡献在于填补空白和提供系统性的消融证据。然而,论文的“现实世界”代表性存在根本性缺陷:1)所有任务均在受控、自包含的沙箱中完成,与真实工作流中充满干扰、网络依赖和复杂交互的环境相去甚远;2)声称的“付费工作流”来源仅体现在任务描述的灵感上,但实际任务经过了高度简化和包装,例如,105个任务中60个(57%)被最佳系统同时解决失败,这强烈暗示任务难度或现实性不足。此外,Terminus-MM的“原生感知”工具(listen_audio, watch_video)被严重黑箱化,其内部调用的模型(例如是Gemini的原生能力还是独立的ASR/VLM模型)未做任何说明,这使得“原生访问”与“命令行工具”的对比在公平性上存疑,因为前者的计算成本和延迟可能已被外部化。 📌 核心摘要 要解决什么问题:现有的终端代理基准主要关注文本、代码和结构化文件,缺乏对现实世界中广泛存在的、需要直接操作音频/视频文件的多媒体文件工作流(Multimedia-File Tasks)的评估。 方法核心是什么:本文提出了一个多模态终端代理基准MMTB(包含105个来自真实付费工作流的任务)和一个多媒体终端代理框架Terminus-MM。Terminus-MM扩展了Terminus-2和Terminus-KIRA,增加了原生音频感知工具listen_audio和原生视频感知工具watch_video。其关键设计是“工作空间感知的工具路由”或“模态掩码”机制:在任务开始时,框架扫描工作空间的文件扩展名,动态确定存在的媒体模态(音频、视频、图像),并只向代理的LLM后端暴露与之对应的感知工具。 与已有方法相比新在哪里:首次在终端代理评估中引入内容感知(Content-aware)和跨文件工作流(Cross-file workflow)的多媒体任务。系统性地证明了原生多模态访问(直接理解音频/视频内容)相较于通过命令行工具(如ffmpeg、ASR)进行间接转换和处理,在效率和成本上的显著优势。 主要实验结果如何:在Gemini-3.1-Pro模型上,提供完整原生模态访问(文本+图像+音频+视频)的Terminus-MM取得了最高成功率(二元成功率0.371,部分成功率0.469),显著优于仅文本访问的Terminus-2(0.124, 0.162)。消融实验表明,原生音频和视频访问是性能提升的主要贡献。当原生模态缺失时,依赖命令行工具转换会导致API成本平均增加1.63x至7.72x,最差情况超过30x。移除动态工具路由(模态掩码)会导致性能下降(如Gemini-3.1-Pro上二元成功率从0.371降至0.324)。失败分析显示,Terminus-MM的主要失败原因是模型推理错误(47%),而商用CLI工具Codex CLI则有更高比例的工具操作相关失败(尤其是超时,39%)。 实际意义是什么:为开发和评估能够处理现实世界多媒体文件工作流的AI代理提供了标准化基准;揭示了原生多模态感知对于提升代理效率、降低成本和可靠性的关键作用;为未来多媒体代理系统的设计指明了方向。 主要局限性是什么:未提供与人类专家基线的直接比较;基准任务规模(105个)和多样性可能不足以完全覆盖所有现实场景;所有评估均在固定10分钟预算内进行,未探索更长预算下的行为;“原生感知”工具的内部实现细节未公开。 🔗 开源详情 代码:https://github.com/mm-tbench/multimedia-terminal-bench 模型权重:论文中未提及提供模型权重下载链接。论文中使用的Qwen3.5-122B、GPT-5.2、Gemini-2.5-Flash、Gemini-3.1-Pro、Sonnet-4.6等均为第三方闭源模型或需通过API/订阅服务访问。Terminus-MM作为工具框架,其本身不包含模型权重。 数据集:MultiMedia-TerminalBench (MMTB) 数据集。获取链接:https://huggingface.co/datasets/mm-tbench/mmtb-media。数据集包含Per-asset media licenses记录在各任务的media.toml中,以CC-BY, CC0, 和 public-domain为主,并包含一个符合Croissant 1.0标准的元数据文件。 Demo:论文中未提及在线演示链接。项目主页为:https://mm-tbench.github.io/multimedia-terminal-bench/ 复现材料:论文详细描述了评估设置,包括任务格式(Harbor任务)、评估协议、代码仓库和附录中的实现细节。完整的复现需要代码仓库、任务数据集以及访问所使用的模型API。 论文中引用的开源项目: Terminal-Bench:论文中的基准测试格式和部分任务设计参考自此项目。链接:https://github.com/terminal-bench/terminal-bench Terminus-2:作为基础的文本终端代理框架。链接:https://github.com/terminal-bench/terminal-bench (Terminal-Bench项目的一部分) Terminus-KIRA:增加了原生图像感知的终端代理框架,采用Apache-2.0许可。链接:https://github.com/terminal-bench/terminus-kira ffmpeg:广泛使用的音视频处理命令行工具。链接:https://ffmpeg.org/ LilyPond:用于乐谱排版的音乐记谱语言和程序。链接:https://lilypond.org/ FluidSynth:软件合成器,用于将MIDI转换为音频。链接:https://www.fluidsynth.org/ Kokoro-82M:论文中提及的一个采用Apache-2.0许可的语音合成模型,用于生成实验中的合成语音。 Godot:开源游戏引擎,用于生成游戏QA任务的视频素材。链接:https://godotengine.org/ Wav2Lip:用于口型同步的视频合成工具。链接:https://github.com/Rudrabha/Wav2Lip reportlab / wkhtmltopdf:用于PDF文档生成的工具。链接:https://www.reportlab.com/ 和 https://wkhtmltopdf.org/ matplotlib:用于生成图表和示意图的Python库。链接:https://matplotlib.org/ music21:用于分析和处理音乐表示的Python工具包。链接:https://web.mit.edu/music21/ 相关基准测试与框架(未直接提供代码链接,但在论文中被引用比较): WebArena / VisualWebArena OSWorld OmniBench JointAVBench AVTrustBench OmniPlay VideoWebArena Claude Code Codex CLI SWE-bench / MLE-bench / AppWorld 🏗️ 方法概述和架构 本文的核心工作是设计并构建一个名为MMTB(MultiMedia-TerminalBench)的评估基准,以及一个用于在该基准上评估的多媒体终端代理框架Terminus-MM。该系统旨在评估终端代理在处理以音视频文件为核心对象的复杂工作流时的能力。 ...

2026-05-13 · 更新于 2026-06-15 · 3 min · 556 words