音频问答 | 语音/音乐/音频论文速递

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #数据集 #流式处理 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #流式处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Reza Pourreza（Qualcomm AI Research）通讯作者：未说明作者列表：Reza Pourreza（Qualcomm AI Research），Rishit Dagli（University of Toronto，实习于Qualcomm AI Research），Apratim Bhattacharyya（Qualcomm AI Research），Sunny Panchal（Qualcomm AI Research），Guillaume Berger（Qualcomm AI Research），Roland Memisevic（Qualcomm AI Research） 💡 毒舌点评这篇论文犀利地戳破了“多模态模型已懂交流”的泡沫，用精心设计的QIVD数据集证明，让AI像人一样“边看边听边聊”还差得远，尤其是在把握“回答时机”和理解动态动作上。遗憾的是，其提出的流式处理基线（拼接ASR和视频LLM）更像是权宜之计，而非优雅的端到端解决方案，这或许暗示了当前模型架构的根本性局限。 🔗 开源详情代码：论文中未提及公开的代码仓库链接。模型权重：评估中使用了多个公开的预训练模型权重（如VideoLLaMA系列、Qwen系列、GPT-4o等）。论文本身贡献的微调模型权重（如微调后的VideoLLaMA2.1-7B-FT-AV， Stream-Qwen-Omni）未明确说明是否公开。数据集：QIVD数据集已提供访问链接（qualcomm.com/developer/software/qualcomm-interactive-video-dataset-qivd），应为公开可用。 Demo：论文中未提及在线演示。复现材料：提供了详尽的附录，包含训练超参数（表D.2）、模型模块冻结/训练状态（表D.1）、评估用的LLM裁判提示词（表D.3, D.4）、GPT-4o的提示词（表D.5）以及对数据集语义分类的详细定义，复现材料非常充分。引用的开源项目：引用了Whisper, Whisper-Streaming, Cosmos-Tokenizer, BEATs, SigLIP等开源工具或模型作为技术组件。开源计划：论文中未明确提及后续开源代码的计划。 📌 核心摘要解决的问题：现有大型多模态模型（LMM）虽然能描述图片、回答静态问题，但在需要结合实时视频和音频流进行情境化问答时表现不佳。它们难以整合多模态信息来理解指代（如“这个”）、判断动态事件，并且最关键的是，不知道“何时”回答。方法核心：提出了一个全新的数据集和基准——Qualcomm Interactive Video Dataset (QIVD)。该数据集通过众包收集，参与者用手机边拍视频边提出开放性问题，数据集包含原始视频、音频、问题的文字转录、答案以及至关重要的“最佳回答时机”时间戳。与已有方法的对比新意：与现有离线视频问答数据集不同，QIVD强制模型处理在线、实时、自包含的问答场景。它不仅评估模型能否“答对”，更评估其能否在动态场景中“听懂”问题并在信息充分时“恰当地”作答，这是对模型情境理解和时序推理能力的直接测试。主要实验结果：人类表现：在子集上人类正确率约为87.3%。模型表现：最强的开源模型（如VideoLLaMA3-7B）在提供完美问题和时机的离线设置下正确率仅为56.4%；最强闭源模型（GPT-4o）正确率为58.8%，远低于人类。时机至关重要：使用模型自身预测的“最佳回答时机”（Stream-Qwen-Omni）会比使用固定时机（如问题结束时）显著提升性能，但仍然存在误差。音频的作用：直接使用音频信息并不总是能提升性能，但经过在QIVD上微调后，模型能有效利用音频，特别是在主观、动作计数等任务上提升巨大（如主观任务+23.26%，动作计数+16.96%）。关键差距：模型在“动作计数”、“音视频理解”、“物体指代”等需要时序推理和跨模态理解的任务上，与人类差距最大。实际意义：为构建能够与人类进行实时视频通话的AI助手、人形机器人或远程协作系统提供了关键的评估基准和瓶颈分析，明确了未来模型需要突破的方向。主要局限性：数据集规模（2900个视频）和类别多样性有限；数据主要来自众包的日常场景，可能缺乏专业或复杂场景；研究的“流式基线”方法本质上是模块化拼接，而非真正的端到端实时系统。 🏗️ 模型架构本文主要贡献是数据集和评估框架，而非一个全新的端到端模型。论文提出的模型架构是用于评估的基线系统，其设计体现了对当前技术路径的分析： ...

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频问答 #音频场景理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频场景理解 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Daiqing Wu（中国科学院信息工程研究所；字节跳动）通讯作者：Yangyang Kang（字节跳动），Yu Zhou（南开大学）作者列表： Daiqing Wu（中国科学院信息工程研究所；字节跳动；中国科学院大学） Xuan Zhang（字节跳动） Dongbao Yang（中国科学院信息工程研究所） Jiashu Yao（字节跳动） Longfei Chen（上海科技大学） Qingsong Liu（字节跳动） Sicheng Zhao（清华大学） Can Ma（中国科学院信息工程研究所） Yangyang Kang（浙江大学；字节跳动） Yu Zhou（南开大学） 💡 毒舌点评亮点：论文清晰地指出了现有“音频条件化文本推理”的信息瓶颈问题，并受人类听觉认知启发，提出了“音频交错推理”这一新颖且合理的范式，通过两阶段训练框架（SFT+RL）使其落地，并在多个专家级音频理解基准上取得了SOTA性能，验证了范式的有效性。短板：训练数据完全依赖LLM（DeepSeek-R1）基于音频描述自动生成，其质量和与真实音频的匹配度可能存在噪声，且数据筛选过程引入了额外的不确定性；虽然提供了代码，但模型权重未公开，限制了复现和直接比较的便利性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/wdqqdw/Echo，包含训练代码和脚本。模型权重：论文中未提及公开模型权重。数据集：论文中提及构建了EAQA-SFT和EAQA-RL数据集，但未明确说明是否公开下载。训练中使用的其他数据集（AudioSet-Strong, MusicBench, AVQA）为公开数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练超参数、数据统计（附录F）、伪代码（附录D）、提示词模板（附录E）和评估设置，复现细节较为充分。引用的开源项目：模型基座为Qwen2.5-Omni，数据合成使用了DeepSeek-R1，训练使用了ms-swift、VERL和vLLM框架。 📌 核心摘要解决的问题：现有大音频语言模型（LALMs）在推理时普遍采用“一次性编码”的音频条件化文本推理，将连续音频信号压缩为静态嵌入，导致关键细节信息丢失，形成“信息瓶颈”，限制了模型处理复杂、多源音频的能力。方法核心：提出“音频交错推理”范式，将音频作为主动推理组件。模型在推理过程中动态定位并回听关键音频片段（通过<seg>标签），将原始音频token插入推理上下文，形成多模态推理过程。为实现此范式，设计了两阶段训练框架：(1) 监督微调（SFT）使模型学会生成包含时间戳的音频定位推理链；(2) 强化学习（RL）通过设计的奖励函数（准确度、格式、一致性、片段奖励）优化模型的回听策略。同时，构建了一个利用LLM自动生成高质量音频问答及思维链（CoT）的数据生产流水线。创新之处：核心创新在于提出了“音频交错推理”这一新的推理格式，改变了模型与音频交互的方式，从“思考音频”转向“用音频思考”。这与之前主要复制文本推理范式的方法有本质区别。配套的两阶段训练框架和自动化数据生成流水线也是重要贡献。主要结果： Echo模型在MMAR（平均69.99%）、MMAU-mini（平均80.41%）和MMAU（平均76.61%）等强调高级推理的音频理解基准上，取得了开源模型中的最优性能，并超越了GPT-4o-Audio和Gemini-2.0-Flash等先进商业模型。消融实验表明，音频交错推理格式、SFT数据、RL数据质量以及各奖励组件对性能提升均有贡献。下表总结了主要实验结果：模型类别 MMAR Avg Acc (%) MMAU-mini Avg Acc (%) MMAU Avg Acc (%) Qwen2.5-Omni (基线) 开源基础模型 57.33 71.53 71.00 GPT-4o-Audio 专有模型 64.09 62.51 60.82 Gemini-2.0-Flash 专有模型 67.90 70.51 67.03 Echo (本文) 自适应模型 69.99 80.41 76.61 实际意义：为提升LALMs的复杂音频理解能力提供了一种符合认知科学、且实证有效的技术路径，特别是在需要精细时序分析和多轮音频感知的任务中（如多说话人角色映射、事件推理）。所提出的数据生成流水线对构建高质量音频训练数据也有参考价值。主要局限性： (1) 训练数据依赖于LLM的合成，其“听觉”基于文本描述而非原始音频，可能存在语义偏差和幻觉，尽管有交叉验证和过滤机制。(2) 当前的回听机制仅支持直接访问原始音频片段，未探索如慢速播放、频谱分析等更高级的“听觉”操作。(3) 模型在长音频上的泛化能力虽被提及但有待更深入验证。 🏗️ 模型架构 Echo模型整体架构基于一个预训练的多模态大模型（Qwen2.5-Omni），并通过两阶段训练使其具备“音频交错推理”能力。其核心不在于全新的神经网络模块设计，而在于推理流程和训练范式的创新。 ...

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院；实习于亚马逊) 通讯作者：未明确说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表： Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校；亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾，并为此开出了“过程奖励”这剂对症良药，将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而，其方法的计算开销（需要多次采样）和奖励函数设计的复杂性，使其对资源有限的团队并不友好，且最终性能天花板仍受制于基础音频感知器的短板，这提醒我们“会思考”之前，得先“听清楚”。 ...

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团， rex.lj@antgroup.com）、Qiuqiang Kong（香港中文大学， qqkong@ee.cuhk.edu.hk）作者列表：Haolin He（香港中文大学、蚂蚁集团）、Xingjian Du（罗切斯特大学）、Renhe Sun（蚂蚁集团）、Zheqi Dai（香港中文大学）、Yujia Xiao（香港中文大学）、Mingru Yang（蚂蚁集团）、Jiayi Zhou（蚂蚁集团）、Xiquan Li（上海交通大学）、Zhengxi Liu（香港中文大学）、Zining Liang（香港中文大学）、Chunyat Wu（香港中文大学）、Qianhua He（华南理工大学）、Tan Lee（香港中文大学）、Xie Chen（上海交通大学）、Wei-Long Zheng（上海交通大学）、Weiqiang Wang（蚂蚁集团）、Mark Plumbley（伦敦国王学院）、Jian Liu（蚂蚁集团）、Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题，并巧妙地将此“缺陷”转化为训练策略设计的依据（Weak-to-Strong），结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI（Qwen3-235B）来构建数据集和进行质量过滤，这多少有点“用魔法打败魔法”，其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型（Qwen2.5-Omni）和评估模型（A-Flamingo2, R1-AQA, Kimi-Audio）均为已公开的模型。数据集：AudioMCQ是本文构建的数据集，论文中描述了构建方法和组成，但未明确提供数据集的公开下载链接或获取方式。 Demo：论文中未提及在线演示。复现材料：提供了详细的超参数配置表（表6，表7）、训练策略说明、评估提示模板（附录B）和质量验证流程（附录C），复现细节较为充分。论文中引用的开源项目：Qwen3-235B（用于数据生成）、Qwen2.5-Omni（骨干模型）、A-Flamingo2、R1-AQA、Kimi-Audio（用于ACF评估）、GRPO（训练方法）、DeepSpeed ZeRO-2（优化器）。开源计划：论文中未提及明确的开源计划。 📌 核心摘要解决的问题：大型音频语言模型（LALMs）的多阶段后训练（如SFT后接RL）效果不佳，缺乏针对性的高质量数据集，且普遍存在“零音频贡献”现象（模型仅凭文本信息即可答对，无需听音频）。方法核心：首先构建了大规模音频选择题数据集AudioMCQ（571k样本）。其次，提出音频贡献过滤（ACF）方法，利用多个模型在“静音”输入下的正确率，将数据分为“弱音频贡献”和“强音频贡献”子集。最后，基于此提出两种训练范式：Weak-to-Strong（SFT用弱音频贡献数据，GRPO用强音频贡献数据）和Mixed-to-Strong（SFT用混合数据，GRPO用强音频贡献数据）。创新性：1) 构建了首个大规模、带思维链注释的音频选择题数据集；2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型（显式逻辑推理与隐式知识检索）；3) 基于音频贡献度提出了简单有效的后训练数据分配策略。实验结果：使用Weak-to-Strong策略，在MMAU-test-mini和MMAU上分别达到78.2%和75.6%；使用Mixed-to-Strong策略，在MMAR和MMSU上分别达到67.0%和71.7%，均为开源模型SOTA。具体结果见表5及下表：方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义：为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略，揭示了当前评估基准中可能存在的“伪音频理解”问题。主要局限性：数据集构建完全依赖一个强大的大语言模型（Qwen3-235B），可能引入偏差；ACF方法依赖三个特定的现成模型；Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong，表明其普适性有待验证。 🏗️ 模型架构本文不提出新的模型架构，而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此，其“架构”体现在数据处理与训练流程上。图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集，经过问题生成、选择题构建、结构化与非结构化思维链生成，以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线，最终产出高质量的选择题数据集。 ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Caorui Li (南京大学, 东南大学) 通讯作者：Jiaheng Liu (南京大学) 作者列表：Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念（如强调音视频必须协同、设计原子推理链、多阶段质量过滤），为评估“真·多模态推理”设立了高标准。然而，短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板（音乐理解差、长视频融合弱），但并未提出任何解决这些问题的新模型或新方法，创新性停留在了评估体系的设计层面。 ...

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #音视频 #大语言模型 #对比学习 #音频问答 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Hanrong Ye（NVIDIA）通讯作者：Hongxu Yin (§†∗)， Pavlo Molchanov (§) （§ Equal Advisory, † Corresponding Authors，均在NVIDIA）作者列表：Hanrong Ye（NVIDIA）， Chao-Han Huck Yang（NVIDIA）， Arushi Goel（NVIDIA）， Wei Huang（NVIDIA）， Ligeng Zhu（NVIDIA）， Yuanhang Su（NVIDIA）， Sean Lin（NVIDIA）， An-Chieh Cheng（NVIDIA）， Zhen Wan（NVIDIA）， Jinchuan Tian（NVIDIA）， Yuming Lou（NVIDIA）， Dong Yang（NVIDIA）， Zhijian Liu（NVIDIA）， Yukang Chen（NVIDIA）， Ambrish Dantrey（NVIDIA）， Ehsan Jahangiri（NVIDIA）， Sreyan Ghosh（NVIDIA）， Daguang Xu（NVIDIA）， Ehsan Hosseini-Asl（NVIDIA）， Danial Mohseni Taheri（NVIDIA）， Vidya Murali（NVIDIA）， Sifei Liu（NVIDIA）， Yao Lu（NVIDIA）， Oluwatobi Olabiyi（NVIDIA）， Yu-Chiang Frank Wang（未说明）， Rafael Valle（NVIDIA）， Bryan Catanzaro（NVIDIA）， Andrew Tao（NVIDIA）， Song Han（NVIDIA）， Jan Kautz（NVIDIA）， Hongxu Yin§†∗（NVIDIA）， Pavlo Molchanov§（NVIDIA）。所有作者均隶属于NVIDIA。 💡 毒舌点评这篇论文的亮点在于其对“全模态对齐”问题的系统性工程化拆解：提出的三个模块（OmniAlignNet, TEG, CRTE）在消融实验中表现出清晰的递进效果，且“隐式+显式”数据合成策略为解决稀缺全模态数据提供了一个可复用的思路。短板则在于，作为一篇声称“开源”的旗舰工作，其论文中对模型具体参数、训练超参数（如学习率、优化器设置）、以及核心代码仓库的链接均未明确给出，极大地影响了其声称的可复现性承诺。 ...

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #时频分析 #跨模态 ✅ 7.0/10 | 前25% | #音频问答 | #多模态模型 | #时频分析 #跨模态学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kun Li (University of Twente, Netherlands; 工作完成于 IT University of Copenhagen, Denmark) 通讯作者：Sami Sebastian Brandt (IT University of Copenhagen, Denmark) 作者列表：Kun Li（University of Twente， IT University of Copenhagen）、Michael Ying Yang（University of Bath）、Sami Sebastian Brandt（IT University of Copenhagen） 💡 毒舌点评亮点：本文最大的优点在于“系统性”和“针对性”——它没有孤立地提出一个模块，而是构建了一个从早期查询引导到中期时空频交互、再到后期上下文推理的完整流水线，并且为每个阶段都找到了扎实的动机（例如，用频率特征解决视觉模糊问题）。短板：尽管在总分上超越了前作，但在Visual QA（特别是位置相关问题）子任务上仍略逊于使用了对象检测器等先验知识的方法（如QA-TIGER），这暗示其“纯频率视角”在需要精细空间推理的场景中可能存在天花板，创新性更多体现在对已知技术的巧妙整合与优化上。 ...

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #音频问答 #强化学习 #长期记忆 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #强化学习 #长期记忆学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lin Long（浙江大学）通讯作者：Yuan Lin（字节跳动Seed）作者列表： Lin Long（浙江大学）, Yichen He（字节跳动Seed）, Wentao Ye（浙江大学）, Yiyuan Pan（卡内基梅隆大学Robotics Institute）, Yuan Lin（字节跳动Seed，通讯作者）, Hang Li（字节跳动Seed）, Junbo Zhao（浙江大学）, Wei Li（字节跳动Seed） 💡 毒舌点评亮点：该工作构建了一个从“感知（看/听）”到“记忆（构建实体中心图谱）”再到“推理（多轮检索与回答）”的完整类人闭环框架，并为此贡献了首个侧重记忆推理能力的长视频问答基准（M3-Bench），系统性很强。短板：记忆构建模块严重依赖外部的人脸识别、说话人分离等工具，其鲁棒性和端到端的可训练性未充分探讨；此外，所采用的DAPO强化学习训练需要极高的计算资源（未说明具体成本），可能限制其广泛复现。 🔗 开源详情代码：论文中提到代码将开源，提供了GitHub仓库链接：https://github.com/ByteDance-Seed/m3-agent。模型权重：承诺发布记忆化模型（memory-7b-sft）和控制模型（control-32b-rl）的检查点。数据集：承诺发布完整的M3-Bench基准，包括视频和问答标注。 Demo：论文中未提及在线演示。复现材料：论文承诺提供训练数据、代码、训练细节（包括超参数表）和附录说明。附录中详细列出了记忆节点的数据结构、工具实现、示范数据合成流程等关键复现信息。引用的开源项目：论文中引用的依赖项目包括InsightFace（人脸识别）、ERes2NetV2（说话人验证模型）、OpenAI的文本嵌入模型（text-embedding-3-large），以及作为基础模型的Qwen2.5-Omni和Qwen3。 📌 核心摘要问题：现有长视频理解方法多为离线处理有限长视频，且关注低层感知而非高层知识积累；智能体缺乏像人类一样在持续交互中构建和利用长期记忆进行推理的能力。方法：提出M3-Agent框架，包含并行工作的记忆化与控制流程。记忆化流程持续处理视频流，生成情景记忆（具体事件）和语义记忆（如人物身份、属性、关系），并以实体为中心的图谱进行组织。控制流程根据指令，通过强化学习（DAPO）训练的策略模型，自主进行多轮推理并检索记忆图谱来完成任务。新意：1) 提出模拟人类记忆机制的、实体中心化的多模态长期记忆架构；2) 设计基于强化学习的多轮检索推理控制策略；3) 构建首个评估记忆能力的多模态智能体基准M3-Bench。结果：在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上，M3-Agent均优于最强基线。例如，在M3-Bench-robot上比最强基线（MA-LMM）高6.3%，在M3-Bench-web上比Gemini-GPT4o-Hybrid高7.7%。消融实验证明了长期记忆（尤其是语义记忆）和强化学习训练的关键作用。方法 M3-Bench-robot M3-Bench-web VideoMME-Long MA-LMM (在线视频理解最佳) 24.4 24.3 17.3 Gemini-GPT4o-Hybrid (混合Agent最佳) 24.0 41.2 56.5 M3-Agent 30.7 48.9 61.8 意义：为构建具备长期记忆和推理能力的多模态智能体提供了新的框架思路和评估标准，推动智能体从“单次感知”向“经验积累”进化。局限：记忆模块依赖外部预训练工具（人脸识别、说话人分离）；强化学习训练成本高昂；记忆图谱的规模化管理和高效检索策略有待进一步研究。 🏗️ 模型架构 M3-Agent的整体架构如图1所示，由多模态大语言模型（MLLM）和多模态长期记忆两大核心部分组成，并支持两个并行的工作流程：记忆化流程与控制流程。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #音频问答 #模型评估 #基准测试 #多模态模型 #时空推理 🔥 8.5/10 | 前25% | #音频问答 | #基准测试 | #模型评估 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zihan Liu（北京航空航天大学、上海AI实验室）通讯作者：Yuhang Zang（上海AI实验室）、Jiaqi Wang（上海AI实验室）作者列表：Zihan Liu（北京航空航天大学、上海AI实验室）， Zhikang Niu（上海交通大学、上海创新研究院）， Qiuyang Xiao（上海交通大学）， Zhisheng Zheng（上海交通大学）， Ruoqi Yuan（北京航空航天大学）， Yuhang Zang（上海AI实验室）， Yuhang Cao（上海AI实验室）， Xiaoyi Dong（上海AI实验室、香港中文大学）， Jianze Liang（上海AI实验室）， Xie Chen（上海交通大学、上海创新研究院）， Leilei Sun（北京航空航天大学）， Dahua Lin（上海AI实验室、香港中文大学）， Jiaqi Wang（上海AI实验室、上海创新研究院） 💡 毒舌点评这篇论文精准地抓住了当前音频大模型“懂语义、不懂物理”的痛点，用一套精心设计的“体检套餐”（STAR-Bench）让模型们在感知灵敏度和物理推理能力上露了怯。它最大的亮点是为社区立了一个更严格的标杆，指明了从“能说会道”到“耳听八方”的进阶之路。短板则在于它主要是一份“诊断书”而非“药方”，对于如何让模型真正“听懂”多普勒效应和倒水声的变化，给出的解决方案线索有限。 ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD)， 2. Johns Hopkins University 通讯作者：Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表：Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD，通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评亮点：该论文精准打击了当前多模态大模型“看似通用，实则偏科”的痛点，其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联，这种诊断思路比单纯刷分的基准更具洞察力。短板：论文像一份极其详尽的“体检报告”，清晰指出了模型的“病灶”（如音频理解弱、方向不平衡），但并未提供任何“治疗方案”（即如何构建更一致的模型），其价值完全依赖于后续研究者如何利用这份诊断报告。 ...