视频理解 | 语音/音频论文速递

ViMU: Benchmarking Video Metaphorical Understanding

📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Qi Li（新加坡国立大学）通讯作者：Xinchao Wang（新加坡国立大学）作者列表：Qi Li（新加坡国立大学）、Xinchao Wang（新加坡国立大学） 💡 毒舌点评该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧，覆盖全面，任务定义（尤其是强制无提示）具有启发性。然而，作为一项评估工作，其核心贡献是提供了一个“考卷”，而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型（GPT-5.4）进行核心生成与验证，这既引发了关于其自身偏差和“原创性”的疑问，也使得完全复现其构建过程变得困难。实验分析虽然深入，但主要揭示了现有模型的不足，缺乏对基准本身局限性的充分量化验证。 📌 核心摘要解决的问题：现有视频理解模型主要关注字面视觉内容，缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。方法核心：提出了ViMU（视频隐喻理解）基准，包含588个视频和2352个问题，覆盖四大任务：开放解释（OE）、证据定位（EG）、修辞机制识别（RM）和社会价值信号识别（SV）。基准构建采用多阶段、迭代优化的流水线，结合前沿LLM（GPT-5.4）生成与人工专家审核。与已有方法相比的新颖性：不同于聚焦于隐含物理关系或单一现象（如幽默）的现有基准，ViMU专注于社会文化语境下的广义“潜台词”理解，并强制采用“无提示”（hint-free）的评估方式，要求模型在不被告知具体线索的情况下进行推断。主要实验结果：对16个前沿多模态大模型（MLLMMs）的评估显示，即便是最强的闭源模型，其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。模型日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明：1）模型普遍倾向于预测更通用、安全的类别，而低估更隐晦的社会编码类别；2）在传统视频理解任务上表现优异的模型，在隐喻理解上不一定领先。 ...

语音/音频论文速递 2026-05-17

语音/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜（2 篇，按分数降序）排名论文评分分档主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #基准测试 #多模态模型 #数学推理 #视频理解 ✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hanoona Rasheed（MBZUAI）通讯作者：未明确说明（论文未明确指出通讯作者）作者列表：Hanoona Rasheed（MBZUAI）， Abdelrahman Shaker（MBZUAI）， Anqi Tang（MBZUAI）， Muhammad Maaz（MBZUAI）， Ming-Hsuan Yang（University of California Merced, Google Research）， Salman Khan（Australian National University）， Fahad Shahbaz Khan（Linköping University） 💡 毒舌点评亮点：数据集构建过程堪称“教科书级别”的严谨，从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准，为后续研究立下了标杆。短板：作为一篇“Benchmarking”论文，其提出的评估框架（如CoT评分使用Qwen-3-4B作为Judge）虽然验证了鲁棒性，但可能引入新的偏见或被未来更强的模型“规避”，且评估结果仍高度依赖现有模型的能力天花板。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://mbzuai-oryx.github.io/VideoMathQA，并说明已将VideoMathQA的实现集成到lmms-eval框架中。模型权重：未提供。本文是基准测试论文，不涉及提出新的模型。数据集：提供。论文声明数据集公开，可通过上述GitHub页面获取。 Demo：未提及在线演示。复现材料：提供了充分的复现细节，包括：完整的模型评估配置（输入帧数、解码参数）、所有使用的提示词模板（CoT、后处理、步骤评估、错误分析等）、评估硬件环境说明。论文中引用的开源项目/工具：主要引用了 lmms-eval 作为评估框架，vLLM 用于语言模型推理，以及多个被评估的开源模型（如Qwen2.5-VL, InternVL系列等）。 📌 核心摘要本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准，包含420个经过专家标注的视频问答对，覆盖10个数学领域，视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注（共2,945步），并设计了三种核心推理类型：直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比，VideoMathQA的创新在于其专注于需要综合视觉、文本（字幕/板书）和音频（讲解）信息，并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型，包括闭源（如GPT-o4-mini）和开源模型（如Qwen2.5-VL-72B），结果发现：1) 当前模型性能与人类水平（80.7%）存在巨大差距，最强的GPT-o4-mini在多二进制评估（CoT+Sub）下仅达44.8%；2) 模型性能随规模提升而提高，但新架构的小模型可超越旧架构的大模型；3) 字幕对具备推理能力的大模型增益显著；4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小，且构建过程人力成本极高。 ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书公司）通讯作者：Weidi Xie（上海交通大学）作者列表：Jack Hong（小红书公司）、Shilin Yan（小红书公司）、Jiayin Cai（小红书公司）、Xiaolong Jiang（小红书公司）、Yao Hu（小红书公司）、Weidi Xie（上海交通大学） 💡 毒舌点评这篇论文最大的亮点在于它指出了一个残酷的现实：现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中，表现最好的也只达到了65.1%的准确率，离可靠应用还差得远。然而，它的短板也同样明显：作为一个评测基准论文，它更像是为其他研究者“立规矩”和“出考卷”，本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：公开。论文明确说明WorldSense数据集已公开发布，可在其项目主页和GitHub/HuggingFace获取。 Demo：未提供在线演示链接。复现材料：提供了详细的评估设置（如帧采样方法、API使用）、评估Prompt模板（附录A.4）和数据集统计信息，足以复现其评估实验。论文中引用的开源项目：引用了多个被评估的开源模型，如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等，以及数据集来源FineVideo和MusicAVQA。开源计划：论文中未提及除数据集之外的额外开源计划。 📌 核心摘要该论文旨在解决当前多模态大语言模型（MLLM）评估中忽略音频模态、场景简单、任务单一的问题。为此，作者提出了WorldSense，这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务，使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频，以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对，确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明，现有模型在真实世界场景下面临巨大挑战，最佳模型Gemini 2.5 Pro的准确率仅为65.1%，而许多开源音视频模型的表现甚至接近随机猜测（约25%）。消融研究证实了原始音频信号比文本转录包含更多信息（如韵律、情感），对提升理解至关重要。该基准旨在推动更全面的多模态理解研究，为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构本文未提出一个新的模型架构，而是设计了一个用于评估现有模型的基准框架。其核心是评估流程，如下： ...

ICASSP 2026 - 视频理解论文列表

ICASSP 2026 - 视频理解共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Vid 7.5分前25% 📋 论文详情 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 👥 作者与机构第一作者：Nianbo Zeng（广东人工智能与数字经济实验室（SZ），深圳；深圳大学计算机科学与软件工程学院）通讯作者：Si Shi（广东人工智能与数字经济实验室（SZ），深圳）作者列表： Nianbo Zeng（广东人工智能与数字经济实验室（SZ），深圳；深圳大学计算机科学与软件工程学院） Haowen Hou（广东人工智能与数字经济实验室（SZ），深圳） F. Richard Yu（卡尔顿大学信息技术学院） Si Shi（广东人工智能与数字经济实验室（SZ），深圳） Ying Tiffany He（深圳大学计算机科学与软件工程学院） 💡 毒舌点评亮点：它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”，并通过动态知识图谱串联起碎片化的证据，在134小时的长视频测试中取得了最高达70.8%的胜率，证明了场景级单元对于长程推理的关键价值。短板：整个框架高度依赖LLM/VLM进行场景划分与描述，其准确性是上限，而论文对这一核心环节的误差传播与鲁棒性讨论略显不足；另外，未提供代码和模型权重，大大削弱了其可复现性。 🔗 开源详情代码：论文中未提及提供SceneRAG框架本身的代码仓库链接。模型权重：未提及公开SceneRAG框架下训练或微调的任何模型权重。数据集：论文使用了公开基准LongerVideos和Video-MME，但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。 Demo：未提及提供在线演示。复现材料：论文给出了详细的算法描述（算法1）和方法流程，但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明（单卡3090）。论文中引用的开源项目： ASR: Distil-Whisper [12] VLM: MiniCPM-V [14] 多模态编码器: ImageBind [24] 实体/片段检索嵌入: text-embedding-3-small (OpenAI) 图RAG基线: GraphRAG [18], LightRAG [19] 论文中未提及开源计划。 📌 核心摘要 ...

Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

📄 Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing #音视频 #视频理解 #知识蒸馏 #弱监督学习 ✅ 7.0/10 | 前25% | #音视频 | #知识蒸馏 | #视频理解 #弱监督学习学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 通讯作者：未说明作者列表： Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Ruohao Guo (School of Intelligence Science and Technology, Peking University, China) Liting Gao (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Yang Xiang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Qingyu Luo (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Zhenbo Li (College of Information and Electrical Engineering, China Agricultural University, China) Wenwu Wang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 💡 毒舌点评这篇论文的亮点在于其系统性和针对性：它精准地指出了现有弱监督AVVP方法的两个痛点（缺乏稳定段监督、粗糙的跨模态对齐），并用EMA和CMA这两个成熟但组合起来很有效的方案“对症下药”，在LLP数据集上的视觉和音视频联合指标上取得了实实在在的提升。但短板也十分明显：创新程度更像是一个“集大成”的工程优化方案，而非提出一个全新的学习范式；而且，论文在追求性能报告上非常详细，却在开源复现信息上极为吝啬，这对于一个旨在推动领域前进的会议论文来说，是减分项。 ...