A Survey of Audio Reasoning in Multimodal Foundation Models

📄 A Survey of Audio Reasoning in Multimodal Foundation Models #音频推理 #音频问答 #多模态模型 #强化学习 #基准测试 #语音对话 ✅ 7.7/10 | 前50% | #音频推理 | #综述 | #音频问答 #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 1.7/2 | 可复现性 0.0/2 | 置信度 高 👥 作者与机构 第一作者:Zhihan Guo(香港中文大学计算机科学与工程系)与Wenqian Cui(香港中文大学计算机科学与工程系)共同一作。 通讯作者:Irwin King(香港中文大学计算机科学与工程系) 作者列表:Zhihan Guo(香港中文大学计算机科学与工程系)、Wenqian Cui(香港中文大学计算机科学与工程系)、Guan-Ting Lin(国立台湾大学通信工程研究所)、Daxin Tan(香港中文大学电子工程系)、Jingyao Li(香港中文大学计算机科学与工程系)、Qiyong Zheng(香港中文大学计算机科学与工程系)、Dingdong Wang(香港中文大学系统工程与工程管理系)、Jing Xiong(香港大学电气与计算机工程系)、Han Shi(华为基础模型部门,香港科技大学计算机科学与工程系)、Jiaya Jia(香港科技大学计算机科学与工程系)、Irwin King(香港中文大学计算机科学与工程系)。 💡 毒舌点评 亮点:作为首篇专注于“音频推理”的系统性综述,它成功地将一个新兴、碎片化但至关重要的领域进行了概念化和结构化。其提出的统一形式化框架和四大范式(音频到文本、音频到语音、音视频、智能体)分类体系,为该领域的研究者提供了极有价值的导航图和共同语言。论文对音频推理独特挑战(如声学接地、延迟权衡)的深刻洞察,直接切中了当前音频AI发展的核心瓶颈。短板:作为一篇旨在定义领域的综述,其在批判性深度上仍有提升空间。部分章节对现有方法的罗列多于剖析,对不同技术路线优劣的对比分析不够系统,且未能就其提出的分类框架和未来方向提供更具体、可操作的技术路径蓝图,削弱了其作为“路线图”的锐度和指导性。 📌 核心摘要 问题:尽管音频基础模型(AFM)发展迅速,但其推理能力(基于声学信号进行多步逻辑推导)仍落后于文本和视觉模型。音频的连续性、时间密集性以及包含语言、副语言和环境信息的多维特性,使其面临独特挑战,如声学-语义对齐、数据稀缺、捷径学习和模态幻觉。 方法核心:本文是一篇系统性综述,核心是构建一个统一的分类和形式化框架。它将音频推理问题统一定义为基于多模态证据的条件生成过程(公式1),并将其划分为四大范式:音频到文本、音频到语音(含实时交互)、音视频推理和智能体音频推理。论文系统梳理了每个范式下的模型架构基础(编码器-投影器-LLM骨干)、训练技术(对齐预训练、SFT、RL)和具体方法。 新在哪里:首次将“音频推理”作为独立核心主题进行专门综述,而非将其作为多模态或语音大模型的附属能力。提出了一个涵盖问题形式化、模型基础、推理范式、评估和未来方向的统一路线图。特别强调了音频推理独有的挑战,如实时交互中的延迟权衡、声学接地的真实性以及捷径学习问题。 主要结果:作为综述论文,本文不提出新模型或新实验结果,而是对现有文献进行归纳总结。关键发现包括:1) CoT在音频推理中的效果并非总是正面(在某些RL训练或复杂任务中可能失效);2) 基于RL的音频推理需要精心设计奖励(准确性、一致性、格式、长度、质量)并解决模态幻觉问题;3) 实时音频到语音推理存在“边听边想”与“边说边想”两类策略,各有延迟与准确性的权衡。论文系统总结了现有工作在MMAU、AVQA等基准上的表现及训练数据构建方法(表III)。 实际意义:为音频/语音领域的研究者提供了清晰的领域全景图和研究方向指引,有助于推动音频推理从简单感知走向复杂认知,对构建能在真实、交互环境中可靠推理的下一代音频AI系统具有重要参考价值。 主要局限性:1) 作为综述,其深度受限于篇幅,对某些复杂方法的剖析可能不够深入;2) 领域发展迅速,综述的时效性面临挑战;3) 主要聚焦于方法学讨论,缺乏对实际部署挑战的深入分析;4) 论文明确指出,其总结的训练数据合成方法存在可靠性存疑的问题(Section IX-A)。 🔗 开源详情 代码:论文中未提及代码链接。本文为综述论文,未提供自身的代码仓库。 ...

2026-05-21 · 更新于 2026-06-19 · 2 min · 320 words

CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering

📄 CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering #多模态问答 #多模态模型 #大语言模型 #基准测试 #视频理解 ✅ 6.6/10 | 前50% | #多模态问答 | #多模态模型 | #大语言模型 #基准测试 | arxiv 学术质量 5.0/7 | 影响力 0.3/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 第一作者:Mahesh Bhosale(University at Buffalo) 通讯作者:Mahesh Bhosale(University at Buffalo) 作者列表:Mahesh Bhosale(University at Buffalo), Abdul Wasi(University at Buffalo), Vishvesh Trivedi(New York University), Pengyu Yan(University at Buffalo), Akhil Gorugantu(University at Buffalo), David Doermann(University at Buffalo) 📌 核心摘要 这篇论文旨在解决真实世界新闻事件背景下,基于多视频的问答与报告生成任务,要求生成的内容不仅事实准确,还需精确引用视频证据。其核心方法CRAFT是一个多阶段流水线,包含动态关键帧选择(DKS)、ASR转录增强、基于原子声明的提取,以及一个由UNLI、DeBERTa-NLI和小型LLM构成的混合评论循环,用于迭代地验证和修复声明,最终通过引用合并生成报告。与之前方法相比,CRAFT的新颖之处在于将声明级别的验证循环深度集成到证据提取阶段,而非仅用于最终答案聚合,并强调了原子声明格式对引用对齐的重要性。实验在MAGMaR 2026(19个查询)和自建的WikiVideo转换集(52个查询)上进行,CRAFT在MAGMaR-Test上取得了最佳整体平均分(0.739)、参考召回率(0.810)和引用F1(0.635),在WikiVideo上也表现强劲(Avg 0.823)。消融研究证明了原子声明、ASR和评论循环的关键作用。该工作的实际意义是为需要高证据密度的多源视频问答(如事实核查、事件报道)提供了一个可行的系统架构。主要局限性是其评估数据集规模较小(19和52个查询),且系统流程复杂,依赖多个外部模型和组件,推理成本较高。 ...

2026-05-21 · 更新于 2026-06-19 · 3 min · 588 words

DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action

📄 DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action #语音对话系统 #多模态模型 #大语言模型 #端到端 #基准测试 ✅ 7.8/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #端到端 | arxiv 学术质量 5.2/7 | 影响力 1.6/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 第一作者:Haoyang Zhang (StepFun, Peking University, Nanyang Technological University) 通讯作者:Fei Tian (StepFun) 作者列表:Haoyang Zhang*(StepFun,北京大学,南洋理工大学),Jun Chen*(StepFun),Donghang Wu(南洋理工大学),Yuxin Li(StepFun,南洋理工大学),Yuxin Zhang(StepFun,上海交通大学),Xiangyu Tony Zhang(StepFun,新南威尔士大学),Che Liu(StepFun,帝国理工学院),Qingjian Lin(StepFun),Yizhou Peng(南洋理工大学),Hexin Liu(南洋理工大学),Eng Siong Chng(南洋理工大学),Chao Yan(StepFun),Boyong Wu(StepFun),Yechang Huang(StepFun),Xuerui Yang(StepFun),Fei Tian†(StepFun)(*表示同等贡献,†表示通讯作者) 💡 毒舌点评 亮点:论文的“双流三通道”架构设计优雅,通过引入速率受限的文本动作通道,将规划、工具调用与语音生成解耦到独立的时钟同步通道,直观地解决了全双工对话中“边说边做”的核心矛盾。同时,构建了专用的DuplexSLA-Bench基准,弥补了现有评测体系对联合评估轮次控制和在线工具调用能力的空白。短板:尽管系统设计完整,但关键的训练细节(如损失权重、硬件、解码策略)和部分超参数(如优化器、学习率)缺失,使得一个77B参数大模型的复现门槛极高。此外,所有评估均在自建的合成基准上进行,缺乏在真实世界或通用对话基准上的验证,结论的泛化性存疑。 ...

2026-05-21 · 更新于 2026-06-19 · 2 min · 416 words

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频生成 #多模态模型 #评测协议 🔥 8.1/10 | 前25% | #基准测试 | #模型评估 | #音视频生成 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 第一作者:Yujie Wei(复旦大学) 通讯作者:Hongming Shan(复旦大学),Xihui Liu(香港大学) 作者列表:Yujie Wei(复旦大学),Yujin Han(香港大学),Zhekai Chen(香港大学),Yongming Li(复旦大学),Kaixun Jiang(复旦大学),Zhihang Liu(阿里巴巴通义实验室),Quanhao Li(复旦大学),Zhiwu Qing(阿里巴巴通义实验室),Xiang Wang(阿里巴巴通义实验室),Zhen Xing(阿里巴巴通义实验室),Ruihang Chu(阿里巴巴通义实验室),Lingyi Hong(复旦大学),Yefei He(浙江大学),Junjie Zhou(阿里巴巴通义实验室),Junqiu Yu(复旦大学),Yang Shi(北京大学),Difan Zou(香港大学),Kai Zhu(阿里巴巴通义实验室),Shiwei Zhang(阿里巴巴通义实验室),Yingya Zhang(阿里巴巴通义实验室),Yu Liu(阿里巴巴通义实验室),Xihui Liu(香港大学),Hongming Shan(复旦大学) 💡 毒舌点评 这篇工作精准切入了多镜头音视频(MSAV)生成这一前沿任务的核心评估痛点——现有工具链在范围、多样性和评估流程上的全面缺失。其贡献在于首次构建了覆盖四维数据(视频、音频、镜头、参考条件)的系统基准,并设计了一套旨在提升鲁棒性的自适应混合评估框架,成果扎实。然而,其本质是为一个新兴领域制定“考试大纲”和“评分标准”,而非提出新的“解题思路”或“知识”,在推动生成模型核心架构创新上作用间接。更关键的是,整套评估体系严重依赖多个强大的商业/闭源基础模型(如GPT-5.4, Qwen3.5, Gemini)作为裁判或工具,这不仅抬高了使用门槛,更引入了难以量化和复现的系统性偏差风险,其评估的“元可靠性”值得商榷。 ...

2026-05-21 · 更新于 2026-06-19 · 2 min · 374 words

Stage-adaptive Token Selection for Efficient Omni-modal LLMs

📄 Stage-adaptive Token Selection for Efficient Omni-modal LLMs #多模态模型 #高效推理 #音频视觉 #大语言模型 ✅ 7.7/10 | 前25% | #多模态模型 | #高效推理 | #音频视觉 #大语言模型 | arxiv 学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Zijie Xin (Renmin University of China) 通讯作者:Xirong Li (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.) 作者列表:Zijie Xin (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.), Ruixiang Zhao (Renmin University of China), Tianyi Wang (WeChat Vision, Tencent Inc.), Fengyun Rao (WeChat Vision, Tencent Inc.), Jing Lyu (WeChat Vision, Tencent Inc.), Xirong Li (Renmin University of China) 注:论文脚注说明 Zijie Xin 和 Ruixiang Zhao 在腾讯实习期间完成了这项工作。 💡 毒舌点评 该工作的核心洞察——om-LLM中跨模态token的依赖性随深度衰减——清晰且有说服力,实验设计也足够扎实(跨模型、多基准、消融分析)。然而,其提出的“阶段自适应”策略在实现上高度依赖于精心调参的启发式规则(如层级划分、衰减函数),这既限制了方法的泛化性(需为每个新模型重新调参),也使得其“自适应”的声称略显薄弱,本质上更像是一种精心设计的、分阶段的启发式调度,而非真正能动态适应输入内容的机制。 ...

2026-05-21 · 更新于 2026-06-19 · 3 min · 527 words

CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation

📄 CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation #音频生成 #流匹配 #多模态模型 #音视频 ✅ 6/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频 | arxiv 学术质量 4.9/8 | 影响力 0.5/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST) 通讯作者:Juhan Nam(Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST)[注:论文未明确标注,但基于惯例与贡献推断] 作者列表:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST),Junwon Lee(Kim Jaechul Graduate School of AI, KAIST),Juhan Nam(Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST) 💡 毒舌点评 论文精准地捕捉到了VT2A模型在视频与文本条件冲突时“视觉优先”的痛点,并提出了一个简洁且有效的推理时解决方案(两阶段采样+分解引导),在反事实音频生成这一细分任务上展示了明确的改进。然而,其核心方法本质上是对已有CFG、负提示和对采样过程洞察的工程化组合与调参,属于方法论层面的精巧设计而非底层算法突破。此外,所提的ΔFLAM评估指标虽然新颖,但对“听感正确性”的验证仍显间接,且评估仅在一个定制数据集上进行。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 430 words

EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection #音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性 ✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv 学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Aritra Marik(达姆施塔特工业大学, ELIZA) 通讯作者:论文未明确标注通讯作者,但提供了三位作者的邮箱。 作者列表:Aritra Marik(达姆施塔特工业大学, ELIZA)、Marcel Klemt(达姆施塔特工业大学, hessian.AI)、Anna Rohrbach(达姆施塔特工业大学, hessian.AI) 💡 毒舌点评 论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号,并设计了专用模块(EmoForensics)进行建模。然而,其“增强”效果高度依赖于强基线(SIMBA),且EmoForensics独立性能(在FakeAVCeleb上AUC 82.10%,在DeepSpeak v2上仅65.38%)与其声称的“互补性”角色存在巨大落差,这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性,缺乏深入分析。 📌 核心摘要 要解决什么问题:随着生成式AI快速发展,深度伪造技术不断更新,现有检测模型难以泛化至训练时未见过的伪造类型,这是当前深度伪造检测研究面临的主要挑战。 方法核心是什么:本文提出 Emo-Boost 框架,旨在通过引入高层语义线索——情感(Emotion)来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器,它利用冻结的预训练情感识别模型提取音频和视觉情感表征,并通过时序 Transformer 建模模态内情感一致性,通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合,将 EmoForensics 的表征与现有多模态检测器(如 SIMBA)的表征相结合。 与已有方法相比新在哪里:相比于主要关注像素级、频谱级伪影或跨模态对齐(如音素-视位匹配)的现有方法,本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号,并显式地设计了针对情感表征的跨模态和时序建模模块。此外,与先前情感检测工作相比,本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。 主要实验结果如何:在 FakeAVCeleb 数据集的留一法(跨操纵)评估中,Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%,相比基线 SIMBA(93.17%)提升了 2.13%。在 DeepSpeak v2 上,Emo-Boosted SIMBA(95.26%)与 SIMBA(95.30%)性能相当。消融实验证明,EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析(图4)显示,EmoForensics 在不同伪造类型上的性能波动(面积 12.50)小于 SIMBA(面积 32.98)。 模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 实际意义是什么:该工作为深度伪造检测提供了一个新的视角,即利用高阶语义信息作为补充线索,有助于提升检测器面对未知新伪造技术的鲁棒性,对内容安全审核领域有潜在应用价值。 主要局限性是什么:EmoForensics 作为独立检测器的性能较弱;在数据集 DeepSpeak v2 上未观察到明显的性能提升,作者归因于该数据集情感表达不够自然;融合策略(特征乘法)的理论依据和有效性分析不足;未探讨情感特征在不同伪造攻击下的失效模式。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重获取链接。 数据集:论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。 Demo:论文中未提及。 复现材料:论文中提供了详细的实现细节、训练配置和超参数设置(见 Section 4 Implementation Details)。论文中未提及模型检查点获取方式。 论文中引用的开源项目: POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA XceptionNet, LipForensics, AVAD, AVFF 等其他项目:论文中仅提及名称,未提供具体链接。 🏗️ 方法概述和架构 Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics. ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 775 words

GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction

📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction #数据集 #多模态模型 #情感识别 #基准测试 #协作交互 #过程建模 ✅ 6.8/10 | 前50% | #数据集 | #多模态模型 | #情感识别 #基准测试 | arxiv 学术质量 5.3/8 | 影响力 0.6/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Meisam Jamshidi Seikavandi(1GN Advanced Science, GN Group, Ballerup, Denmark;2IT University of Copenhagen, brAIn lab, Copenhagen, Denmark)。根据论文脚注“These authors contributed equally.”,Meisam Jamshidi Seikavandi、Alice Modica和Anna Obara为共同第一作者。 通讯作者:未明确指定,但论文中将Meisam Jamshidi Seikavandi标注为“corresponding author”。 作者列表:Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner。机构涉及GN Advanced Science (GN Group), IT University of Copenhagen, Copenhagen Business School, Aalborg University。 💡 毒舌点评 这篇论文是一个扎实的“基础设施”工作。亮点在于其对数据集构建和发布的极高透明度要求:BIDS-inspired结构、Croissant元数据、详细的数据表、每会话质量报告,这为后续研究设立了一个可审计的标杆。它精准定位了多人、多模态、多层次(个体内/个体间/群体)情感分析数据集的空白,并通过精心设计的四个协作任务和同步的多传感器采集来填补。然而,短板也同样明显且根本:10组40人的样本量使得许多定义的“基准测试”在统计上形同虚设。论文中大量基准任务(特别是涉及个体间特质和群体动态的)的性能接近随机,其置信区间宽到无法得出任何稳健结论。这使得论文更像是一份“问题定义书”和“数据发布说明书”,而非一份能产出可靠科学发现的实验报告。基线模型的“失败”(如群体不平等性预测)更多暴露了数据量不足导致的过拟合,而非方法本身的缺陷。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 548 words

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频 #生成模型 #多模态模型 ✅ 6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 共同第一作者:Yujie Wei(复旦大学),Yujin Han(香港大学),Zhekai Chen(香港大学),Yongming Li(复旦大学) 项目负责人:Shiwei Zhang(阿里巴巴通义实验室) 通讯作者:Hongming Shan(复旦大学),Xihui Liu(香港大学) 作者列表(按原文顺序): Yujie Wei (1,复旦大学) Yujin Han (2*,香港大学) Zhekai Chen (2*,香港大学) Yongming Li (1*,复旦大学) Kaixun Jiang (1,复旦大学) Zhihang Liu (3,阿里巴巴通义实验室) Quanhao Li (1,复旦大学) Zhiwu Qing (3,阿里巴巴通义实验室) Xiang Wang (3,阿里巴巴通义实验室) Zhen Xing (3,阿里巴巴通义实验室) Ruihang Chu (3,阿里巴巴通义实验室) Lingyi Hong (1,复旦大学) Yefei He (4,浙江大学) Junjie Zhou (3,阿里巴巴通义实验室) Junqiu Yu (1,复旦大学) Yang Shi (5,北京大学) Difan Zou (2,香港大学) Kai Zhu (3,阿里巴巴通义实验室) Shiwei Zhang (3†,阿里巴巴通义实验室,项目负责人) Yingya Zhang (3,阿里巴巴通义实验室) Yu Liu (3,阿里巴巴通义实验室) Xihui Liu (2🖂,香港大学,通讯作者) Hongming Shan (1🖂,复旦大学,通讯作者) 💡 毒舌点评 亮点:论文精准切入“多镜头音视频(MSAV)生成”这一前沿评测空白,提出了首个综合性基准MSAVBench。其数据设计(四维度:视频、音频、镜头、参考)和评估框架(自校正、分层评分、工具增强代理)的系统性与前瞻性值得肯定,对19个模型的评估也提供了有价值的生态诊断。短板:论文的核心贡献在于构建一个评测“系统”和“报告”,而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成,在追求算法理论突破的顶会中,原创性“硬度”不足。同时,对评估框架自身的深入分析(如不同VLM的影响、成本分析)略显仓促,对评测结果的解读存在过度泛化的风险。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 741 words

OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding #视频理解 #基准测试 #多模态模型 #流式处理 #大语言模型 ✅ 7.3/10 | 前25% | #视频理解 | #基准测试 | #多模态模型 #流式处理 | arxiv 学术质量 6/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhao(中国人民大学) 通讯作者:Xirong Li(中国人民大学),Jie Yang(腾讯微信视觉) 作者列表:Ruixiang Zhao(中国人民大学)、Jie Yang(腾讯微信视觉)、Zijie Xin(中国人民大学)、Tianyi Wang(腾讯微信视觉)、Fengyun Rao(腾讯微信视觉)、Jing LYU(腾讯微信视觉)、Xirong Li(中国人民大学) 💡 毒舌点评 该工作系统性地指出了现有主动流式视频理解基准在全模态、主动性和任务多样性上的不足,并提出了一个整合性的评估框架(任务分类法、双模式协议)。其核心贡献在于定义了“好的全模态主动流式模型”的三个标准,并将它们放入统一的评估标尺中,对社区具有明确的指引价值。然而,作为一项基准测试工作,其自身价值高度依赖于数据质量与评估设计的严谨性。数据完全由单一大模型(Gemini)生成且无人工标注的多样性,这一关键决策可能引入系统性偏差,严重影响基准的长期可靠性。此外,在线评估仅涵盖三个模型,且其F1指标的具体实现细节(如开放任务由LLM裁判评分)的稳定性与公平性有待更深入的验证。 📌 核心摘要 问题:现有流式视频理解基准存在三大缺陷:主要依赖视觉信号、采用轮询或固定时间戳的被动评估方式、覆盖任务有限,无法可靠地区分和评估具备“主动”能力的全模态大模型。 方法核心:提出首个联合评估全模态感知、主动响应和多样化任务能力的基准 OmniPro。核心包括一个包含3级认知水平、9个子任务的任务分类法;一个结合密集描述、大模型生成和两轮人工审核的数据构建流程;以及一个包含Probe(评估内容理解)和Online(评估流式主动能力)的双模式评估协议。 新意:首次在统一框架下,系统性地评估模型在全模态感知(音频至关重要)、主动决策何时响应以及广泛任务理解这三方面的能力。特别强调了非语音音频的作用,并设计了支持多次响应和惩罚误触发的在线评估F1指标。 主要实验结果:评估了11个代表性模型。主要发现:(1) 音频带来一致性增益但模型利用率差异巨大(AV输入比V输入平均提升+2.4至+11.1分);(2) 性能随触发时间推后严重衰减,模型仅能保持早期性能的37%;(3) 非语音音频感知是所有模型的共同短板。最强闭源模型(Gemini-3-Flash,Probe模式40.4%准确率)与最强开源模型(Qwen3-Omni,22.6%)存在巨大差距。 实际意义:为快速发展的全模态主动流式大模型提供了首个全面的评估标准和测试平台,明确了当前模型在长期感知、音频理解等方面的具体短板,指导未来模型研发方向。 主要局限性:所有问答和标注均为英文,限制了多语言评估;在线评估仅测试了3个模型,对流式架构能力的揭示可能不足;数据构建完全依赖单一大模型生成,可能引入分布偏差且无人工标注的多样性。 🔗 开源详情 代码:论文中承诺开源评估代码和数据生成提示模板,并在附录中提供了完整示例。项目主页为 https://ruixiangzhao.github.io/OmniPro ,但论文中未直接给出代码仓库的具体URL(如GitHub链接)。 模型权重:论文中未提及模型权重的具体下载链接。论文评估了多个开源模型(如Qwen2.5-Omni、Qwen3-Omni、video-SALMONN 2+、VideoLLaMA2.1-AV、Phi-4-multimodal、InternVL3.5、Qwen3-VL、MiniCPM-o 4.5、MMDuet2、LiveStar),但未提供OmniPro基准或评估用模型的权重链接。 数据集: 数据集名称:OmniPro 开源协议:CC BY-NC 4.0(见附录C.3) 获取链接:论文中未提及具体下载链接。项目主页可能包含数据访问方式。 数据来源:视频来自 LongVALE (CC-BY-NC-SA-4.0) 和 COIN (CC BY-NC 4.0) 数据集的测试集(见附录C.3)。 Demo:论文中未提及在线演示链接。 复现材料:论文附录提供了用于数据生成的提示词模板(Dense Captioning Prompt和各子任务的QA Generation Prompts)。评估代码承诺开源但未提供链接。未提供训练配置或检查点(因本工作不涉及模型训练)。 论文中引用的开源项目:论文中评估了多个开源模型及其各自资源,但未明确引用除评估模型外的其他特定开源项目或工具。 🏗️ 方法概述和架构 本论文是一项基准测试构建工作,其核心“方法”是定义了一个全新的评估框架和数据集,而非一个可训练的模型架构。其流程是:源视频收集 → 自动化密集描述与QA生成 → 人工质量控制 → 双模式评估协议执行。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 647 words