多模态模型

语音/音频论文速递 2026-05-17

语音/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜（2 篇，按分数降序）排名论文评分分档主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

📄 IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments #语音提取 #多模态模型 #麦克风阵列 #语音分离 #数据集 ✅ 6/10 | 前50% | #语音提取 | #多模态模型 | #麦克风阵列 #语音分离 | arxiv 学术质量 5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Dinanath Pathya (Department of Electronics and Computer Engineering, Thapathali Campus, Institute of Engineering, Tribhuvan University, Kathmandu, Nepal) 通讯作者：Dinanath Pathya (dinanath@tcioe.edu.np) 作者列表：Dinanath Pathya, Sajen Maharjan, Binita Adhikari, Ishwor Raj Pokharel [论文中所有作者均隶属于同一机构：Thapathali Campus, Institute of Engineering, Tribhuvan University, Kathmandu, Nepal] 💡 毒舌点评本文聚焦于一个明确且实际的工程痛点：在紧凑麦克风阵列上实现用户指定目标的语音提取。论文通过实验证明了经典波束成形方法在该场景下的失效，并提出了一个多模态融合网络IsoNet作为解决方案。然而，所有实验完全基于模拟数据，且与近年主流的音频-视觉语音分离模型缺乏在相同任务定义（紧凑阵列、用户选择）下的直接对比，使得其声称的“必要性”和“竞争力”缺乏在真实世界和更广泛方法谱系中的支撑。论文的贡献更偏向于一个针对特定硬件约束的系统概念验证，而非方法学上的显著突破。 ...

MediaClaw: Multimodal Intelligent-Agent Platform Technical Report

📄 MediaClaw: Multimodal Intelligent-Agent Platform Technical Report #多模态模型 #开源工具 #大语言模型 #工作流编排 📝 3.3/10 | 后50% | #多模态模型 | #开源工具 | #大语言模型 #工作流编排 | arxiv 学术质量 2.5/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度中 👥 作者与机构第一作者：Shaoan Zhao（China Unicom AI (Yuanjing) Team）通讯作者：未说明作者列表：Shaoan Zhao, Huanlin Gao, Qiang Hui, Ting Lu, Xueqiang Guo, Yantao Li, Xinpei Su, Fuyuan Shi, Chao Tan, Fang Zhao, Kai Wang, Shiguo Lian（均属于China Unicom AI (Yuanjing) Team / UniAI Team） 💡 毒舌点评这篇技术报告本质上是一份面向企业级AIGC工作流整合的工程实践文档。它清晰地阐述了如何将碎片化的多模态生成能力“组装”成可复用的生产力平台。然而，其“技术报告”的定位与顶级学术会议的期望严重错位：它既无新算法，也无定量评估，更像一份精心编写的系统设计白皮书或产品技术文档。评审的核心矛盾在于，其工程价值无法直接等同于学术贡献。 ...

UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

📄 UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars #语音合成 #多模态模型 #高效推理 #稀疏建模 📝 5.5/10 | 前25% | #语音合成 | #多模态模型 | #高效推理 #稀疏建模 | arxiv 学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Xiaoyu Zhan（南京大学）、Xinyu Fu（南京大学）（共同第一作者）通讯作者：Yanwen Guo（南京大学）、Dongjie Fu（南京大学）作者列表： Xiaoyu Zhan（南京大学） Xinyu Fu（南京大学） Chenghao Yang（南京大学） Xiaohong Zhang（南京大学） Dongjie Fu（南京大学） Pengcheng Fang（南京大学） Tengjiao Sun（南京大学） Xiaohao Cai（南京大学） Hansung Kim（南京大学） Yuanqi Li（南京大学） Jie Guo（南京大学） Yanwen Guo（南京大学） 💡 毒舌点评这篇论文的核心贡献是将“空间稀疏MoE”和“时间稀疏关键帧+插值”两种技术，整合进一个基于LLM的统一自回归框架，以解决共同语音动画生成中“高质量”与“实时性”的矛盾。其工程设计思路清晰，且在实时性指标（FPS）上较LOM有显著提升。然而，论文的致命伤在于，其“统一建模”的优越性论证极其薄弱。实验明确显示，在纯音频驱动任务上，专用模型（SynTalker）的FGD指标显著优于UMo（4.687 vs. 5.107），而UMo在其他统一模型中也并未取得压倒性优势。这使得论文声称的“统一框架”能带来整体性能提升的说法站不住脚，更像是一种为整合而整合的架构设计，其必要性和有效性存疑。 ...

语音/音频论文速递 2026-05-15

语音/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language

📄 GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language #基准测试 #几何推理 #多模态模型 ✅ 7.0/10 | 前25% | #几何推理 | #基准测试 | #多模态模型 | arxiv 学术质量 6.9/8 | 影响力 0.7/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Jinwoong Kim（北京大学，王选计算机技术研究所）通讯作者：未说明作者列表：Jinwoong Kim（北京大学，王选计算机技术研究所）、Rui Yang（北京大学，王选计算机技术研究所）、Huishuai Zhang（北京大学，王选计算机技术研究所） 💡 毒舌点评亮点：论文提出了一个极具价值的新评估范式——将几何推理的焦点从“答案正确性”或“视觉相似度”转移到“可执行性”和“几何约束满足”上。通过设计一个支持迭代修复的交互式环境（GeoBuildBench），为严格评估模型的结构化推理、规则遵循和错误修正能力提供了一个创新的测试床。这对于理解和改进智能体（Agent）的具身推理能力有重要意义。短板：论文的“方法”部分更多是环境构建与评估框架设计，而非提出新的模型架构或学习算法。此外，虽然评估了多个前沿模型，但对模型在迭代过程中具体修正策略的分析（如面对特定约束反馈时的推理路径）仍停留在统计层面，缺乏更深入的定性案例研究来揭示“为什么”某些模型修正能力更强。 📌 核心摘要问题：现有的几何推理基准主要关注文本答案的正确性或生成图像的视觉相似度，忽略了将自然语言描述转化为几何一致、可执行的构造图这一关键且具有挑战性的步骤。这导致模型可能产生“结构性幻觉”——输出看似合理，但内部的几何关系（如平行、相切）或对象引用是错误的。方法核心：提出GeoBuildBench，一个用于评估几何构造能力的交互式基准和环境。核心任务是：模型根据中文几何题文本，生成一个领域特定语言（DSL）程序来构造几何图形。环境执行程序、渲染图形，并通过一个验证模块检查对象覆盖（所有必需对象是否创建）和几何约束满足（如角度值、距离相等、平行等），随后将结构化反馈（错误、缺失对象、违反的约束）返回给模型，形成“生成-执行-验证-修复”的闭环交互。创新点：其新意在于：(1) 定义了可执行几何构造这一新的评估任务，而非静态问答或图像生成；(2) 设计了基于几何约束满足（数值验证）而非视觉相似度的客观评估体系；(3) 构建了支持迭代修复的交互式环境，评估模型的闭环推理能力；(4) 通过严格流程构建了一个文本完整、几何可构造的高质量数据集（489个问题）。实验结果：对GPT-5.1、Gemini-3-Flash、Qwen3-VL-235B和LLaMA-3.2-90B-Vision四个模型进行了评估，最大迭代预算为5步。前沿闭源模型（GPT-5.1, Gemini-3-Flash）成功率较高（78.9%， 75.3%），但开源模型（Qwen3-VL, LLaMA-3.2-Vision）表现显著较差（42.2%， 21.3%）。所有模型普遍存在结构幻觉（如引用未定义对象）和约束违反问题，且利用反馈进行自我修正的能力有限，表现为修复速度慢或幻觉持续。关键数据见下表：模型成功率(%) 平均步数(↓) 幻觉数/问题(↓) 缺失对象数(↓) 违反约束数(↓) GPT-5.1 78.9 1.87 0.40 939 1119 Gemini-3-Flash 75.3 1.55 0.34 329 932 Qwen3-VL-235B 42.2 2.30 2.30 2042 1817 LLaMA-3.2-90B-Vision 21.3 2.23 2.38 1823 1584 补充关键细节：Gemini-3-Flash的平均幻觉恢复步数最短（1.17步），表明其从错误中学习的效率最高。在难度分析（Table 18）中，即使是最强的GPT-5.1，在最高难度（Level 4）问题上的成功率也降至65.7%。实际意义：该基准为评估和理解大模型的结构化输出能力、规则遵循能力和闭环错误修复能力提供了严格框架，揭示了当前多模态模型在将语言精确映射到符号化构造步骤并维持状态一致性方面的弱点，对发展更可靠的几何推理智能体和具身AI有直接启发。局限性：基准范围限于中国平面几何问题和预定义的DSL及验证条件集；评估结果依赖于固定的交互协议（如5步预算、特定提示模板）；对模型如何利用反馈的深层机制分析不足。 🔗 开源详情代码：https://github.com/ooongs/GeoBuildBench 模型权重：论文中未提及。论文评估了多个第三方模型，但未发布自研模型权重。数据集：GeoBuildBench 数据集（包含489个中文平面几何问题及标注）。论文未提供独立的数据集下载链接，但代码仓库很可能包含数据集。 Demo：论文中未提及。复现材料：论文附录（Appendix A-H）提供了详细的复现材料，包括： GeoDSL 快速参考：完整的语法、命令和执行语义（附录A）。验证语义与失败模式：支持的验证条件类型、对象覆盖检查和数值容差的详细定义（附录B）。完整系统提示词：用于代理（agent）的完整系统提示词（附录C）。任务解析与标注提示词：用于数据过滤、清洗和标注几何问题的具体提示词（附录D）。数据集统计与标注细节：类别分布、构建难度分布及解释（附录E）。可视化构造示例：一个可构造问题和一个不可构造问题的详细GeoDSL代码与渲染图（附录F）。详细评估诊断：模型性能的整体诊断、幻觉类型分析、缺失对象分析、验证条件失败分析、反馈利用率指标等（附录G）。附加评估结果：跨语言评估和按难度分级的成功率分析（附录H）。论文中引用的开源项目：论文中提到了多个相关工作，包括GeoQA, Geometry3K, Inter-GPS, GMB/GMBL, MagicGeo/MagicGeoBench, GeoUni, AlphaGeometry, GEOS，但未提供其具体开源链接。 🏗️ 方法概述和架构 GeoBuildBench构建了一个代理-环境交互循环，用于评估几何构造能力。核心流程为：输入自然语言几何问题 → 代理生成一个GeoDSL程序 → 几何内核执行程序并更新几何状态 → 渲染器基于状态生成图像 → 验证模块根据任务定义（必需对象和验证条件）检查执行结果，生成通过/失败的结构化反馈 → 将图像与反馈一起返回给代理 → 代理根据反馈迭代修改程序，直到验证通过或达到预算上限。 ...

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs #音视频 #高效推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音视频 | #高效推理 | #多模态模型 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Chaeyoung Jung（Korea Advanced Institute of Science and Technology (KAIST)）通讯作者：未明确说明（论文中列出的通讯作者地址为“Equal contribution”，与第一作者相同）作者列表：Chaeyoung Jung（KAIST）、Kyeongha Rho（KAIST）、Joon Son Chung（KAIST） 💡 毒舌点评这篇论文的“移除音频已知，保留音频未知”的剪枝思想确实新颖且直观，实验结果也非常亮眼，尤其是在Qwen2.5-Omni 7B上能以55%的压缩率保持甚至超越全token性能。但尴尬的是，方法最核心的“保留空间细节”分支（图2中标注2⃝）依赖于一个固定的全局空间保留比例ρspa，这在处理如球员球衣号码、面部表情等高度局部化、信息量集中的细节时显得非常脆弱，论文的失败案例也明确证实了这一点。一个自适应的、可能依赖内容或查询的空间预算分配机制，才是该方法从“有效”迈向“鲁棒”的关键下一步。此外，将所有实验仅限于短视频片段，其结论在长视频场景下的普适性存疑。 📌 核心摘要要解决什么问题：全模态大语言模型（Omni-LLMs）在处理音视频输入时，会产生大量token，导致计算开销巨大，阻碍了实际部署。现有的token剪枝方法要么针对特定任务训练，要么过度依赖音频-视觉的强对齐信号，可能丢弃理解宽泛上下文所需的证据。方法核心是什么：论文提出了一个名为ContextGuard的推理时token剪枝框架。其核心思想是将token压缩从“选择重要token”重新定义为“移除跨模态冗余，同时保留音频无法表达的视觉上下文”。具体实现包含三个主要步骤：a) 音频引导的语义剪枝：使用一个轻量级的音频到视觉语义预测器（A2V Predictor）从音频预测粗糙视觉语义，移除与预测语义高度相似（即可被音频解释）的视频token；b) 空间细节保留：通过网格采样和局部空间变化度量，额外保留一部分token以覆盖图像空间，保存颜色、姿态等音频无法指定的局部细节；c) 基于深度分数的时间合并：对时间上相似的chunk进行分段和合并，进一步压缩冗余帧。与已有方法相比新在哪里：与现有训练基础的（如EchoingPixels, OmniSIFT）或基于对齐的（如OmniZip）方法不同，ContextGuard不追求为当前查询选择最相关的token，而是致力于去除被音频流冗余表达的视觉信息，并主动保留那些与音频不匹配的视觉证据（如场景文字、背景物体），以维护更广泛的上下文信息。主要实验结果如何：在Qwen2.5-Omni（7B/3B）和Video-SALMONN2+（7B/3B）两个模型及六个音视频基准测试上，ContextGuard显著优于基线方法。关键结果如表1所示： Method Comp.↑ (%) World.↑ Daily.↑ Video-MME↑ OmniVid.↑ AVQA↑ video-SAL2.↓ Avg.↑ (%) Qwen2.5-Omni 7B Full Token 0 47.4 57.1 78.8 48.2 87.6 48.1 100.0 Random 50 45.7 52.4 78.4 43.4 86.7 50.4 95.4 FastV 50 45.6 56.6 77.9 47.6 87.0 49.8 98.1 OmniZip 54 46.8 56.6 77.1 47.0 87.0 52.8 97.3 ContextGuard 55 47.7 57.2 78.8 48.2 87.1 48.1 100.0 Qwen2.5-Omni 3B Full Token 0 47.7 57.7 75.8 44.0 87.6 53.5 100.0 Random 50 44.1 53.1 74.0 42.8 87.1 56.1 95.7 FastV 50 46.7 55.6 74.0 44.0 87.2 54.6 98.2 OmniZip 54 47.1 55.8 74.9 42.8 87.3 52.4 98.9 ContextGuard 61 47.7 56.6 75.8 45.2 87.3 52.3 100.5 Video-SALMONN2+ 7B Full Token 0 50.7 56.3 79.2 43.4 67.8 18.9 100.0 Random 50 47.3 51.6 76.2 39.5 66.8 25.7 90.7 FastV 50 46.3 51.8 79.2 42.2 66.1 24.0 92.8 OmniZip 49 47.8 53.8 79.2 42.8 68.8 22.4 95.7 ContextGuard 55 50.6 55.5 81.4 47.0 66.9 19.9 100.5 Video-SALMONN2+ 3B Full Token 0 48.1 57.7 76.2 45.8 81.6 22.7 100.0 Random 50 44.3 51.6 73.2 42.0 81.2 30.3 90.6 FastV 50 45.6 53.2 71.0 36.1 81.0 27.4 90.2 OmniZip 49 45.6 54.7 73.2 41.6 81.3 26.3 93.7 ContextGuard 56 47.1 55.5 73.6 44.6 81.4 24.2 96.9 特别是在Qwen2.5-Omni 7B上，剪枝55%的token后，在6个基准中的5个上达到了全token性能。实际意义是什么：该方法为部署高效的全模态大模型提供了有力的工具，通过一个无需微调下游LLM、仅需一个独立训练的轻量预测器的推理时框架，大幅降低了音视频理解的计算成本和内存占用，对实时交互应用具有重要价值。主要局限性是什么：方法依赖于固定的精细粒度空间保留比例（ρspa），这可能导致在需要非常具体局部细节的任务（如识别球衣号码、细微表情）上表现不佳，正如其失败案例所示。此外，所有评估均基于短于1分钟的视频片段，限制了结论对长视频场景的适用性。A2V预测器的鲁棒性在不同内容类型（如音乐视频）上未被充分讨论。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集： WorldSense: 论文中未提供链接。 Daily-Omni: 论文中未提供链接。 Video-MME: 论文中未提供链接。 AVQA: 论文中未提供链接。 OmniVideoBench: 论文中未提供链接。 video-SALMONN2 test set: https://huggingface.co/datasets/videoSALMONN2/video-SALMONN_2_testset AudioSet: 论文中提及，未提供具体链接。 VGGSound: 论文中提及，未提供具体链接。 Demo：论文中未提及。复现材料：论文提供了详细的附录，包括 A2V 预测器的架构、训练目标、训练数据（AudioSet 和 VGGSound）、超参数设置、以及各项分析实验的细节（如语义保留比例、空间细节保留策略、时序合并实现等）。未提及训练检查点或代码库。论文中引用的开源项目： Qwen2.5-Omni: 论文中作为基线模型使用，未提供代码或权重仓库链接。 Video-SALMONN2+: 论文中作为基线模型使用，未提供代码或权重仓库链接。 OmniZip: 论文中作为对比方法，未提供代码或仓库链接。 FastV: 论文中作为对比方法，未提供代码或仓库链接。 🏗️ 方法概述和架构整体流程概述：ContextGuard是一个在LLM解码器之前运行的、多阶段的音视频token剪枝框架。其输入为交替的音视频token序列，输出为压缩后的视觉token序列和完整的音频token序列。该框架并非端到端系统，而是由一个独立训练的轻量级A2V预测器和一个基于启发式规则的剪枝-合并流水线组成。 ...

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

📄 Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction #多模态模型 #医疗音频 #自洽学习 #提示工程 #动机访谈编码 ✅ 6.0/10 | 前50% | #动机访谈编码 | #自洽学习 | #多模态模型 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度中 👥 作者与机构第一作者：Guangzeng Han (University of Memphis, Department of Computer Science) 通讯作者：Xiaolei Huang (Department of Psychology, Washington State University Vancouver; 论文发表时隶属于University of Memphis) 作者列表：Guangzeng Han (University of Memphis), James G. Murphy (Veterans Affairs Health Care System; University of California San Francisco), Benjamin O. Ladd (University of Memphis), Xiaolei Huang (Washington State University Vancouver), Brian Borsari (Washington State University Vancouver) 💡 毒舌点评本文将自洽推理从纯文本扩展至多模态临床编码，并设计了四种具有临床动机（内容、韵律、证据评分、对比）的提示策略，展现了在垂直领域应用大模型的工程巧思；然而，在一个仅含5个会话、898个话语的小规模数据集上，仅与两个简单的提示基线（Direct, COT）对比，且绝对性能（宏F1 < 51%）较低，严重削弱了方法“优越性”的证明力度和普适性结论，更像是一次概念验证（proof-of-concept）。 ...

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Wei Wu（北京大学）通讯作者：Hao Tang（北京大学，邮箱：bjdxtanghao@gmail.com）作者列表：Wei Wu（北京大学），Ziyang Xu（北京大学），Zeyu Zhang（北京大学，项目负责人），Yang Zhao（La Trobe University），Hao Tang（北京大学）注：论文明确标注前三位作者（Wei Wu, Ziyang Xu, Zeyu Zhang）贡献相等（Equal contribution）。 💡 毒舌点评本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”，并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式（单人演讲、多人讨论、交互问答）的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而，其主要弱点在于核心贡献更偏向系统集成而非底层技术创新，关键模块（如视频合成、语音生成）的技术细节几乎完全依赖于未说明的外部模型，使得论文的“技术深度”存疑。同时，评估体系严重依赖于可能同源的VLM评判者，缺乏人类评估数据的校准，使得其高分结果的说服力大打折扣。 📌 核心摘要解决的问题：现有演示视频生成系统大多依赖用户提供完整的源文档（如论文、报告），无法处理简短、开放式的用户查询，并主动获取内容和视觉资源来生成演示视频。方法核心：提出PresentAgent-2，一个端到端的智能体框架。系统接收用户查询和选定的演示模式，首先将查询提炼为主题，并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源（文本、图片、GIF、视频）。随后，基于这些资源规划演示结构、生成幻灯片和对应模式的脚本（单人演讲为叙述脚本，多人讨论为角色对话脚本，交互问答为基于上下文的回答），合成音频，并将幻灯片、音频和动态媒体（保持GIF/视频的可播放性）合成为最终的演示视频。与已有方法相比的新颖之处：a) 任务设定开放：首次系统性地研究从开放查询到演示视频的生成，而非从给定文档转换。b) 内容获取主动：集成了针对演示场景优化的“深度研究”模块，主动收集多模态资源。c) 输出模式丰富：在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理：在视频合成中保留了检索到的GIF和视频的动态特性，而非将其转换为静态截图。主要实验结果：论文构建了名为PresentEval的多模态演示基准测试集，包含60个查询-参考视频对（每种模式20对）。使用不同骨干模型（如Qwen3.5-VL-Plus）进行评估，结果显示系统在客观测验（满分5）和主观评估（满分5）上均取得较高分数（例如，使用Qwen3.5-VL-Plus时，客观测验得分均>4.8，主观评估均分均>4.3）。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。实际意义：为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式，降低了从问题到结构化多媒体演示视频的制作门槛。主要局限性：a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限（60例）。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情代码：https://github.com/AIGeeksGroup/PresentAgent-2 模型权重：论文中未提及模型权重的具体下载链接（如HuggingFace/ModelScope）。数据集：论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集（60个查询-参考视频对），但未提供其公开获取地址。 Demo：https://aigeeksgroup.github.io/PresentAgent-2 复现材料：论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。论文中引用的开源项目： Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD：论文中仅在相关工作或表格中提及项目名称和引用，未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统，旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示：接收用户的自然语言查询q和选定的演示模式m，首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ，随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步：q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Nguyen Quang Trung（南洋理工大学，LMMs-Lab）通讯作者：未说明作者列表：Nguyen Quang Trung（南洋理工大学，LMMs-Lab），Yiming Gao（南洋理工大学，LMMs-Lab），Fanyi Pu（南洋理工大学，LMMs-Lab），Kaichen Zhang（南洋理工大学，LMMs-Lab），Shuo Sun（约翰霍普金斯大学），Ziwei Liu（南洋理工大学，LMMs-Lab） 💡 毒舌点评这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题，其IMAVB基准测试的2×2设计堪称教科书式的诊断工具；然而，作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整，其在真实、开放世界场景中的泛化能力和实际部署价值被高估了，诊断本身很彻底，但治疗方案可能只是止痛药。 📌 核心摘要要解决什么问题：当全模态大语言模型（LLM）遇到与其自身感官输入（视觉、音频）相矛盾的文本前提时，其失败究竟是源于感知层面（未能检测到矛盾）还是行动层面（检测到了但未能在输出中拒绝）？现有的协同性基准测试无法揭示这种失败模式。方法核心是什么：论文提出了IMAVB（一个500个电影片段的2×2设计基准测试），通过保持视频和音频不变，仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针（分析隐藏状态）和引导对数调整（PGLA，一种推理时干预方法），来诊断模型内部表示与外部行为之间的脱节。与已有方法相比新在哪里：与现有的跨模态基准测试（如AVHBench）相比，IMAVB使用隐含的虚假前提（而非明确验证提示）、长视频（1-5分钟），并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域，并量化了其模态不对称性（音频接地弱于视觉）。主要实验结果如何：在8个开源全模态LLM和Gemini 3.1 Pro上，论文发现了显著的“表示-行动鸿沟”：线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提，但模型的实际拒绝率极低（多数开源模型在音频误导性检测上为0%）。PGLA通过将内部信号反馈至输出，在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。模型基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么：研究结果表明，提升全模态LLM的感知接地能力，瓶颈可能不在于更大的编码器或更丰富的表示，而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。主要局限性是什么：基准测试局限于电影领域，可能无法推广到所有视频类型；误导性前提是单次细节交换；PGLA的干预是基于同一基准测试数据训练的，其跨域泛化能力未经验证；对商用模型（Gemini）的分析仅限于行为层面，缺乏表示分析。 🔗 开源详情代码：论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”，但未给出具体的GitHub等仓库地址。模型权重：论文中未提及提供预训练或微调的模型权重链接。数据集：IMAVB数据集。论文中提及一个匿名访问链接：https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo：论文中未提及在线演示链接。复现材料：论文中提供了详细的实验设置、评估协议和实现细节，主要包含在附录中（如Appendix J, L, G）。评估使用了开源框架lmms-eval（链接：https://github.com/EvolvingLMMs-Org/lmms-eval）。所有实验使用温度0、top-p和top-k为1的设置，并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。论文中引用的开源项目： lmms-eval：开源多模态评估框架。论文中引用为lmms-eval，链接：https://github.com/EvolvingLMMs-Org/lmms-eval。评估的开源全模态LLM（论文中未提供其官方权重或代码链接，仅列出名称）：OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。商业模型：Gemini 3.1 Pro（通过API评估，未开源）。数据生成与标注中使用的模型：Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o（论文中未提供这些模型的具体链接）。其他方法（论文中提及但未提供实现链接）：Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程，包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...