Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

Sat, 02 May 2026 00:00:00 +0000

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

#多模态模型 #音频问答 #强化学习 #长期记忆

🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #强化学习 #长期记忆

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Lin Long（浙江大学）
通讯作者：Yuan Lin（字节跳动Seed）
作者列表：
- Lin Long（浙江大学）, Yichen He（字节跳动Seed）, Wentao Ye（浙江大学）, Yiyuan Pan（卡内基梅隆大学Robotics Institute）, Yuan Lin（字节跳动Seed，通讯作者）, Hang Li（字节跳动Seed）, Junbo Zhao（浙江大学）, Wei Li（字节跳动Seed）

💡 毒舌点评

亮点：该工作构建了一个从“感知（看/听）”到“记忆（构建实体中心图谱）”再到“推理（多轮检索与回答）”的完整类人闭环框架，并为此贡献了首个侧重记忆推理能力的长视频问答基准（M3-Bench），系统性很强。短板：记忆构建模块严重依赖外部的人脸识别、说话人分离等工具，其鲁棒性和端到端的可训练性未充分探讨；此外，所采用的DAPO强化学习训练需要极高的计算资源（未说明具体成本），可能限制其广泛复现。

🔗 开源详情

代码：论文中提到代码将开源，提供了GitHub仓库链接：https://github.com/ByteDance-Seed/m3-agent。
模型权重：承诺发布记忆化模型（memory-7b-sft）和控制模型（control-32b-rl）的检查点。
数据集：承诺发布完整的M3-Bench基准，包括视频和问答标注。
Demo：论文中未提及在线演示。
复现材料：论文承诺提供训练数据、代码、训练细节（包括超参数表）和附录说明。附录中详细列出了记忆节点的数据结构、工具实现、示范数据合成流程等关键复现信息。
引用的开源项目：论文中引用的依赖项目包括InsightFace（人脸识别）、ERes2NetV2（说话人验证模型）、OpenAI的文本嵌入模型（text-embedding-3-large），以及作为基础模型的Qwen2.5-Omni和Qwen3。

📌 核心摘要

问题：现有长视频理解方法多为离线处理有限长视频，且关注低层感知而非高层知识积累；智能体缺乏像人类一样在持续交互中构建和利用长期记忆进行推理的能力。
方法：提出M3-Agent框架，包含并行工作的记忆化与控制流程。记忆化流程持续处理视频流，生成情景记忆（具体事件）和语义记忆（如人物身份、属性、关系），并以实体为中心的图谱进行组织。控制流程根据指令，通过强化学习（DAPO）训练的策略模型，自主进行多轮推理并检索记忆图谱来完成任务。
新意：1) 提出模拟人类记忆机制的、实体中心化的多模态长期记忆架构；2) 设计基于强化学习的多轮检索推理控制策略；3) 构建首个评估记忆能力的多模态智能体基准M3-Bench。

结果：在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上，M3-Agent均优于最强基线。例如，在M3-Bench-robot上比最强基线（MA-LMM）高6.3%，在M3-Bench-web上比Gemini-GPT4o-Hybrid高7.7%。消融实验证明了长期记忆（尤其是语义记忆）和强化学习训练的关键作用。

方法	M3-Bench-robot	M3-Bench-web	VideoMME-Long
MA-LMM (在线视频理解最佳)	24.4	24.3	17.3
Gemini-GPT4o-Hybrid (混合Agent最佳)	24.0	41.2	56.5
M3-Agent	30.7	48.9	61.8

意义：为构建具备长期记忆和推理能力的多模态智能体提供了新的框架思路和评估标准，推动智能体从“单次感知”向“经验积累”进化。
局限：记忆模块依赖外部预训练工具（人脸识别、说话人分离）；强化学习训练成本高昂；记忆图谱的规模化管理和高效检索策略有待进一步研究。

🏗️ 模型架构

M3-Agent的整体架构如图1所示，由多模态大语言模型（MLLM）和多模态长期记忆两大核心部分组成，并支持两个并行的工作流程：记忆化流程与控制流程。

图1：M3-Agent的架构。它包含多模态大语言模型（MLLM）和多模态长期记忆，支持记忆化与控制两个并行流程。

长期记忆：实现为一个实体中心化的多模态图谱（如图1右侧所示）。每个节点代表一个记忆条目，包含ID、模态类型（文本/图像/音频）、内容、嵌入向量、置信度权重和时间戳等元数据。节点之间通过边连接，表示逻辑关系（如属于同一实体）。记忆通过激活频率获得权重，用于解决潜在冲突（加权投票机制）。
记忆化流程：
- 输入：实时视频/音频流。
- 处理：以片段（如30秒）为单位处理。首先使用人脸识别和说话人识别工具提取并关联实体身份（Face ID, Voice ID），确保跨片段的人物表示一致性。
- 生成：MLLM生成两类记忆：
  - 情景记忆：记录片段内具体的事件、动作和对话。
  - 语义记忆：提取高阶知识，包括人物身份等价性（链接Face ID和Voice ID）、人物属性、人际关系和常识。
- 更新：生成的记忆以节点形式存入图谱，与现有节点建立或激活连接。
控制流程（算法1）：
- 输入：用户指令（问题）。
- 多轮推理：策略模型（πθ）生成一个轨迹，每轮包含推理、动作和参数。动作包括[Search]（检索记忆）和[Answer]（输出答案）。
- 记忆检索：当动作为[Search]时，系统使用提供的参数在记忆图谱中执行检索（如search node或search clip），并将结果返回给策略模型作为下一轮输入。
- 终止：当生成[Answer]动作或达到最大轮次时结束。
- 输出：最终的答案。

关键设计选择：

双记忆类型：模仿人类认知科学中的情景记忆与语义记忆划分，平衡细节记录与知识提炼。
实体中心图谱：解决长时程中人物身份和知识的一致性问题，避免歧义。
多轮检索推理：不同于传统的单轮RAG，允许智能体根据初步信息自主决定后续检索方向，进行更复杂、更聚焦的推理。

💡 核心创新点

类人长期记忆框架：提出了一个完整的感知-记忆-推理循环框架（M3-Agent），其记忆系统明确区分并生成情景记忆与语义记忆，并以实体为中心的图谱进行组织和更新，模拟了人类经验积累的过程。此前工作要么缺乏记忆，要么记忆结构简单（如序列存储），难以支持复杂推理。
多轮检索控制策略：采用强化学习（DAPO）训练控制模型，使其能自主进行多轮推理和迭代式记忆检索，而非简单的单次检索增强生成。这使智能体能处理需要分解、追踪和综合多次信息的复杂问题。
面向记忆推理的评估基准：创建了M3-Bench，包含机器人视角和网络视频，并设计了五类专注于测试记忆和高层推理能力的问题（如多证据推理、跨模态推理、人物理解）。填补了现有长视频问答基准多关注浅层感知的空白。

🔬 细节详述

训练数据：
- 记忆化模型：使用内部500个长视频、26943个30秒片段，通过混合策略（GPT-4o和Gemini-1.5-Pro）合成了10,952个示范样本（情景记忆、身份映射、语义记忆）。训练集中保留了200个样本用于验证。
- 控制模型：使用内部视频数据集，先利用记忆化模型（memory-7b-sft）为每个训练视频生成长期记忆，构建控制策略的训练环境。
损失函数：
- 记忆化模型：采用标准的模仿学习（监督微调）损失，最小化模型生成与示范数据之间的交叉熵。
- 控制模型：采用DAPO（Direct Alignment from Preferences Optimization）损失函数，这是一种针对长文本生成的强化学习算法。奖励信号来自GPT-4o对最终答案正确性的判断（二值奖励）。优化目标旨在最大化获得高奖励轨迹的概率，同时包含剪辑项以稳定训练。
训练策略：
- 记忆化模型（memory-7b-sft）：基于Qwen2.5-Omni-7b进行监督微调，3个epoch，学习率1e-5，批次大小16，使用16块80GB GPU。
- 控制模型（control-32b-rl）：基于Qwen3-32b进行强化学习训练。使用DAPO算法，每组问题采样多个轨迹（G），根据最终答案奖励进行策略更新。超参数设置见附录H。
关键超参数：
- 记忆化片段长度：约30秒。
- 控制流程最大推理轮次（H）：5轮。
- 记忆检索返回条目数（k）：2条。
- 检索相似度阈值（t）：0.5。
训练硬件：记忆化模型训练使用16块80GB GPU。控制模型训练硬件未明确说明，但DAPO通常需要大规模计算资源。
推理细节：
- 解码策略：论文未说明具体解码策略（如贪婪解码、采样温度等）。
- 记忆检索：使用基于嵌入向量的最大内积搜索（MIPS）。人脸/语音节点通过余弦相似度匹配（阈值：图像0.3，语音0.6）；文本节点使用OpenAI的text-embedding-3-large模型嵌入并检索。
正则化或稳定训练技巧：DAPO算法本身包含策略比率剪辑，以稳定强化学习训练。

📊 实验结果

主要结果：在三个基准上的整体性能对比如下表所示。

方法	M3-Bench-robot	M3-Bench-web	VideoMME-Long
Socratic Model
- Qwen2.5-Omni-7b	2.0	11.3	42.2
- Qwen2.5-VL-7b	3.4	14.9	46.9
- Gemini-1.5-Pro	8.0	23.2	38.0
- GPT-4o	8.5	28.7	38.8
Online Video Understanding
- MovieChat	11.2	12.6	19.5
- MA-LMM	24.4	24.3	17.3
- Flash-VStream	19.4	23.6	25.0
Agent Method
- Gemini-Agent	16.9	34.1	55.1
- Gemini-GPT4o-Hybrid	24.0	41.2	56.5
M3-Agent	30.7	48.9	61.8

M3-Agent在所有基准上均显著优于最强基线。在M3-Bench-robot上超过MA-LMM 6.3个百分点，在M3-Bench-web和VideoMME-Long上分别超过Gemini-GPT4o-Hybrid 7.7和5.3个百分点。

问题类型细分结果（M3-Bench-robot）：

方法	多证据推理	多跳推理	跨模态推理	人物理解	常识提取	总体
MA-LMM	25.6	23.4	22.7	39.1	14.4	24.4
Gemini-GPT4o-Hybrid	21.3	25.5	22.7	28.8	23.1	24.0
M3-Agent	32.8	29.4	31.2	43.3	19.1	30.7

M3-Agent在“人物理解”和“跨模态推理”上优势尤为明显。

消融实验：

记忆化模型消融（控制模型固定为control-32b-rl）：

记忆化模型	M3-Bench-robot	M3-Bench-web	VideoMME-Long
memory-gemini-prompt	28.7	46.3	52.7
memory-7b-prompt	25.3	39.9	50.8
memory-7b-sft	30.7	48.9	61.8
memory-7b-sft w/o equivalence	19.5	39.7	52.1
memory-7b-sft w/o semantic memory	13.6	29.7	48.7

结果表明，监督微调（SFT）能显著提升记忆质量；移除人物身份等价映射和语义记忆会导致性能大幅下降。

控制模型消融（记忆模型固定为memory-7b-sft）：

控制模型	M3-Bench-robot	M3-Bench-web	VideoMME-Long
control-32b-grpo	30.0	47.7	58.7
control-32b-prompt	20.7	40.9	52.5
control-32b-rl	30.7	48.9	61.8
control-32b-prompt w/o inter-turn instruction	12.8	32.3	48.3
control-32b-rl w/o inter-turn instruction	20.2	43.1	55.9
control-32b-rl w/o reasoning	19.0	40.1	52.3

结果表明：1) DAPO训练优于GRPO；2) 强化学习相比提示工程带来巨大提升（32b模型上提升约10%）；3) 多轮指令和推理模块对性能至关重要。

其他图表：图2展示了M3-Bench中的数据样例，直观体现了问题的挑战性（需要跨片段、跨模态信息聚合）。图3展示了数据集的统计信息，包括问题类型分布和视频类别分布。

⚖️ 评分理由

学术质量：6.0/7：论文在框架设计上具有明确的创新性（记忆图谱、多轮控制），技术路线清晰，实验对比全面且有深度消融，整体是一篇扎实且有贡献的系统工作。但在记忆构建的端到端优化��控制策略的训练效率/稳定性分析上可以更深入。
选题价值：1.5/2：赋予AI长期记忆是实现真正智能体的核心挑战，该工作直面此问题，提出的框架和基准具有重要价值，对机器人、个人助手等领域有明确的应用前景。
开源与复现加成：+0.5：论文明确承诺开源全部核心组件（数据、模型、代码），这种开放性对社区和后续研究是极大利好，能显著降低复现门槛。

← 返回 ICLR 2026 论文分析

长期记忆 on 语音/音频论文速递