VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #多模态模型 #基准测试 #大语言模型 ✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed (MBZUAI) 通讯作者:未说明 作者列表:Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University) 💡 毒舌点评 这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理,并构建了迄今最贴合该场景的基准,其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而,其本质仍是一篇“数据集论文”,在模型创新和算法突破上着墨为零,且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 300 words

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 391 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书) 通讯作者:Shilin Yan(小红书) 作者列表:Jack Hong(小红书)、Shilin Yan†(小红书)、Jiayin Cai(小红书)、Xiaolong Jiang(小红书)、Yao Hu(小红书)、Weidi Xie‡(上海交通大学) 💡 毒舌点评 这篇论文的价值在于它像一盆冷水,明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远(最佳开源模型约25%,最强商用模型仅65.1%),而音频模态是普遍短板。不过,其评估形式局限于多选题,可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情 代码:论文提供了项目主页链接(https://jaaackhongggg.github.io/WorldSense),但未明确提及评估代码或数据处理脚本的开源仓库。 模型权重:未提及。本文为评估基准,未提出新模型。 数据集:已公开。WorldSense数据集可通过项目主页获取,采用CC BY-NC-SA 4.0许可证。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的评估提示词模板(附录A.4)、标注协议描述(3.3节和附录A.2)以及模型评估设置说明(4.1节和附录A.3),为复现评估结果提供了充分信息。 论文中引用的开源项目:主要引用了作为数据源的FineVideo和MusicAVQA数据集,以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。 论文中未提及开源计划:评估代码、质量控制自动化脚本。 📌 核心摘要 问题:现有针对多模态大语言模型的评估基准大多忽略音频模态,或仅处理弱耦合的音视频信息,无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。 方法核心:提出了WorldSense,首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频,设计了3,172个多选问答对,覆盖8大领域、67个子类和26种任务。 新在哪里:与已有基准相比,WorldSense的创新在于:(i) 强调音视频模态的强耦合性,回答问题必须同时依赖两者;(ii) 覆盖真实世界多样化场景和音频类型(语音、环境声、音乐);(iii) 采用高质量人工标注和严格的多重质量控制流程。 主要实验结果:实验评估了多种主流多模态模型。结果显示,最佳开源多模态视频模型准确率仅为54.0%(Qwen3-Omni),而多数开源音视频模型表现接近随机猜测(约25%)。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明,加入原始音频相比仅用字幕能带来更大性能提升。 实际意义:该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台,并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。 主要局限性:基准采用多选题形式,在一定程度上限制了对模型生成式能力和开放性推理的评估;此外,尽管覆盖广泛,但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构 本文的核心贡献是提出了一个评估基准(Benchmark),而非一个新的模型。因此,其“架构”指的是基准的设计框架。该框架主要由两部分构成:数据构建流水线和评估范式。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 353 words

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD), 2. Johns Hopkins University 通讯作者:Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表:Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD,通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评 亮点: 该论文精准打击了当前多模态大模型“看似通用,实则偏科”的痛点,其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联,这种诊断思路比单纯刷分的基准更具洞察力。 短板: 论文像一份极其详尽的“体检报告”,清晰指出了模型的“病灶”(如音频理解弱、方向不平衡),但并未提供任何“治疗方案”(即如何构建更一致的模型),其价值完全依赖于后续研究者如何利用这份诊断报告。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 312 words

语音/音乐/音频论文速递 2026-05-02

语音/音乐/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜(4 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分 前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分 前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

2026-05-02 · 更新于 2026-06-19 · 4 min · 724 words

BUT System Description for CHiME-9 MCoRec Challenge

📄 BUT System Description for CHiME-9 MCoRec Challenge #语音识别 #多模态模型 #预训练 #大语言模型 #说话人分离 ✅ 6.5/10 | 前25% | #语音识别 | #多模态模型 | #预训练 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Dominik Klement、Alexander Polok、Nguyen Hai Phong、Prachi Singh、Lukáš Burget(论文未明确说明作者所属机构) 💡 毒舌点评 亮点: 系统工程做得非常扎实,通过精心设计的模拟数据管线和渐进式训练策略,成功地将两个强大的预训练模型(Parakeet-v2与AV-HuBERT)融合,在极具挑战的MCoRec任务上取得了接近冠军的性能,证明了该方案在实际复杂场景中的有效性。 短板: 创新性主要体现在系统集成和训练技巧上,核心的门控融合机制并非全新。此外,论文中报告的训练数据规模与公开数据集(如LRS3)的量级相比并不突出,其模拟数据生成方法(如AMI混叠)的具体参数和可扩展性细节未充分公开,限制了独立复现的价值。 🔗 开源详情 代码:https://github.com/BUTSpeechFIT/CHiME-9-AV-TS-ASR 模型权重:论文中未提及具体模型权重链接,仅说明使用了预训练的NVIDIA Parakeet-v2和AV-HuBERT模型。 数据集:论文中提到了以下数据集用于预训练或开发,但未提供其直接下载链接: AVYT:未提供链接。 LRS3:未提供链接。 AMI:未提供链接。 LibriMix:未提供链接,仅描述了模拟方法。 CHiME-9 MCoRec 数据集:未提供直接链接,但给出了挑战赛结果页链接 https://www.chimechallenge.org/current/task1/results。 Demo:论文中未提及。 复现材料:论文中描述了训练配置(包括优化器、学习率调度、训练时长等)和数据增强方法,但未提供预训练检查点或详细配置文件的下载链接。 论文中引用的开源项目: NeMo toolkit:提供了GitHub链接 https://github.com/NVIDIA/NeMo。 DSPy framework:提供了GitHub链接 https://github.com/stanfordnlp/dspy。 AV-HuBERT:论文中未提供链接。 NVIDIA Parakeet-v2:论文中未提供链接。 Qwen3.5:论文中未提供链接,仅提及作为LLM使用。 补充信息 [细节详述] 补充:论文中未明确说明训练时的batch size等具体批次配置信息。 [细节详述] 补充:论文在3.2节“MCoRec Data Preprocessing”中详细说明了对MCoRec数据集的核查与清洗工作。具体发现开发集中(54,4)和(55,3)的转录文本被错误替换,训练集中(26,2), (27,0), (28,2), (29,2), (30,2)也存在类似不匹配。论文移除了无法校正的样本,并使用修正后的数据进行训练和模型选择,但所有最终结果均在原始数据上报告。这一数据清洗步骤是实验严谨性的重要体现。 📌 核心摘要 解决的问题:本文针对CHiME-9 MCoRec挑战赛,解决多人重叠对话场景下的音频-视觉目标说话人自动语音识别(AV-TS-ASR)及将说话人正确聚类到各自对话组的问题。 方法核心:提出一个长上下文AV-TS-ASR系统,它通过一个可学习的门控机制将预训练的NVIDIA Parakeet-v2 ASR模型与来自AV-HuBERT模型的视觉特征进行动态融合。对话分组则采用基于大语言模型(Qwen3.5-122B)的主题相似度估计与层次聚类相结合的方法。 与已有方法相比新在哪里:相比基线系统,主要创新在于:(1) 设计了一个能够处理长序列输入的音视频融合架构,无需依赖主动说话人检测(ASD)进行分段;(2) 用LLM驱动的语义聚类替代了仅依赖语音重叠时长的启发式聚类方法,提升了分组准确性。 主要实验结果:在MCoRec开发集上,该系统将词错误率(WER)从基线的49.9%降至33.7%,聚类F1分数从0.815提升至0.97。在官方评估集上,该系统取得了第二名的成绩,WER仅比最优系统高0.16%,F1低0.5%。消融实验表明,大规模模拟数据预训练对最终性能至关重要。 实际意义:该工作为处理“鸡尾酒会”等复杂多说话人对话场景提供了有效的多模态解决方案,展示了结合强预训练模型与LLM语义分析的强大能力,推动了实用化对话转写技术的发展。 主要局限性:系统性能仍受限于模拟数据与真实MCoRec数据之间的域差距(如视频质量、混叠场景)。此外,用于语义聚类的LLM推理成本较高,且在转录错误率较高时性能会下降(尽管论文显示对WER<30%的错误有一定鲁棒性)。 🏗️ 模型架构 本文提出的系统包含两个核心模块:音频-视觉目标说话人ASR(AV-TS-ASR)和基于LLM的对话组聚类。 ...

2026-05-01 · 更新于 2026-06-19 · 2 min · 334 words

Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge

📄 Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge #语音对话系统 #端到端 #基准测试 #多模态模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #端到端 | #基准测试 #多模态模型 | arxiv 学术质量 4.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(作者列表按姓氏字母顺序排列,未明确指出第一作者) 通讯作者:未说明(论文中未明确标注通讯作者,但提供了共同联系邮箱) 作者列表:Chengyou Wang (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China)、Hongfei Xue (同上)、Guojian Li (同上)、Zhixian Zhao (同上)、Shuiyuan Wang (未说明具体单位,仅列姓名)、Shuai Wang (未说明具体单位,仅列姓名)、Xin Xu (未说明具体单位,仅列姓名)、Hui Bu (AISHELL, China)、Lei Xie (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China) 💡 毒舌点评 本文为全双工语音对话系统的研究提供了一套详尽、实用的“考试大纲”和“模拟题库”,其数据集构建和评测框架设计是当前该领域急需的公共产品,对推动后续研究非常有益;但作为一篇“综合性研究”,它更像是一个挑战赛报告和资源发布文档,缺乏自身提出的、经过严格验证的新型模型或核心算法,学术增量主要体现在“评测”而非“建模”上。 ...

2026-05-01 · 更新于 2026-06-19 · 2 min · 319 words

Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI

📄 Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI #教育研究 #方法论框架 #多模态模型 #基准测试 #跨模态 ✅ 6.0/10 | 前50% | #模型评估 | #基准测试 | #教育研究 #方法论框架 | arxiv 学术质量 5.5/7 | 选题价值 3.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文中未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表: Dorottya Demszky(未说明) Edith Bouton(未说明) Alison Twiner(未说明) Sara Hennessy(未说明) Richard Correnti(未说明) 💡 毒舌点评 这篇论文试图在教育研究与AI技术之间架起一座方法论的桥梁,其提出的“尺度-时长-模态”三维分析框架视角新颖,对于整合长期割裂的大规模量化研究与深度质性研究具有启发性。然而,作为一个纯理论框架论文,它缺乏任何实证数据、算法实现或案例验证来支撑其框架的有效性和实用性,读起来更像一篇优秀的研究议程提案,而非一份扎实的学术成果报告。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [核心摘要] 补充:框架的提出直接源于对课堂互动研究中“大规模量化观察”与“小样本质性民族志”长期割裂现状的观察,旨在弥合这一方法论鸿沟。论文中用于例证框架的两个研究(Howe et al., 2019; Snell & Lefstein, 2018)在三维空间中的具体定位有清晰对比:前者代表大尺度、中期持续、以音频转录为主的文本分析;后者代表小尺度(单案例)、长期追踪、以视频为主的多模态(含视觉线索)分析。这一对比具体展示了框架如何定位和对比不同研究的侧重点。 ...

2026-05-01 · 更新于 2026-06-19 · 1 min · 153 words

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #多模态模型 | #端到端 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Junbo Cui(论文中未明确标注“第一作者”,根据作者列表排序推断) 通讯作者:未明确说明(论文中标注为“Corresponding authors”,但未指明具体个人) 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao. (所属机构为MiniCPM-o Team, OpenBMB,论文未提供各作者具体所属部门) 💡 毒舌点评 亮点在于将“全双工多模态交互”这一前沿概念落地为一个可运行的、高效的开源系统,其Omni-Flow框架的设计思想具有启发性。短板在于,虽然展示了强大的基础能力,但论文中对于模型在复杂、长时、动态真实场景下的“主动行为”鲁棒性和稳定性验证相对有限,更像是一个能力很强的“全能选手”初登舞台,而非经过严苛实战检验的“特种兵”。 ...

2026-05-01 · 更新于 2026-06-19 · 3 min · 461 words

语音/音乐/音频论文速递 2026-05-01

语音/音乐/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分 前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分 前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分 前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分 前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分 前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分 前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分 前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分 前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分 前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分 前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分 前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分 前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分 前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分 前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分 前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分 前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分 前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分 前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分 后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

2026-05-01 · 更新于 2026-06-19 · 12 min · 2481 words