Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #音频问答 #强化学习 #长期记忆 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #强化学习 #长期记忆 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lin Long(浙江大学) 通讯作者:Yuan Lin(字节跳动Seed) 作者列表: Lin Long(浙江大学), Yichen He(字节跳动Seed), Wentao Ye(浙江大学), Yiyuan Pan(卡内基梅隆大学Robotics Institute), Yuan Lin(字节跳动Seed,通讯作者), Hang Li(字节跳动Seed), Junbo Zhao(浙江大学), Wei Li(字节跳动Seed) 💡 毒舌点评 亮点: 该工作构建了一个从“感知(看/听)”到“记忆(构建实体中心图谱)”再到“推理(多轮检索与回答)”的完整类人闭环框架,并为此贡献了首个侧重记忆推理能力的长视频问答基准(M3-Bench),系统性很强。短板: 记忆构建模块严重依赖外部的人脸识别、说话人分离等工具,其鲁棒性和端到端的可训练性未充分探讨;此外,所采用的DAPO强化学习训练需要极高的计算资源(未说明具体成本),可能限制其广泛复现。 🔗 开源详情 代码:论文中提到代码将开源,提供了GitHub仓库链接:https://github.com/ByteDance-Seed/m3-agent。 模型权重:承诺发布记忆化模型(memory-7b-sft)和控制模型(control-32b-rl)的检查点。 数据集:承诺发布完整的M3-Bench基准,包括视频和问答标注。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供训练数据、代码、训练细节(包括超参数表)和附录说明。附录中详细列出了记忆节点的数据结构、工具实现、示范数据合成流程等关键复现信息。 引用的开源项目:论文中引用的依赖项目包括InsightFace(人脸识别)、ERes2NetV2(说话人验证模型)、OpenAI的文本嵌入模型(text-embedding-3-large),以及作为基础模型的Qwen2.5-Omni和Qwen3。 📌 核心摘要 问题:现有长视频理解方法多为离线处理有限长视频,且关注低层感知而非高层知识积累;智能体缺乏像人类一样在持续交互中构建和利用长期记忆进行推理的能力。 方法:提出M3-Agent框架,包含并行工作的记忆化与控制流程。记忆化流程持续处理视频流,生成情景记忆(具体事件)和语义记忆(如人物身份、属性、关系),并以实体为中心的图谱进行组织。控制流程根据指令,通过强化学习(DAPO)训练的策略模型,自主进行多轮推理并检索记忆图谱来完成任务。 新意:1) 提出模拟人类记忆机制的、实体中心化的多模态长期记忆架构;2) 设计基于强化学习的多轮检索推理控制策略;3) 构建首个评估记忆能力的多模态智能体基准M3-Bench。 结果:在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上,M3-Agent均优于最强基线。例如,在M3-Bench-robot上比最强基线(MA-LMM)高6.3%,在M3-Bench-web上比Gemini-GPT4o-Hybrid高7.7%。消融实验证明了长期记忆(尤其是语义记忆)和强化学习训练的关键作用。 方法 M3-Bench-robot M3-Bench-web VideoMME-Long MA-LMM (在线视频理解最佳) 24.4 24.3 17.3 Gemini-GPT4o-Hybrid (混合Agent最佳) 24.0 41.2 56.5 M3-Agent 30.7 48.9 61.8 意义:为构建具备长期记忆和推理能力的多模态智能体提供了新的框架思路和评估标准,推动智能体从“单次感知”向“经验积累”进化。 局限:记忆模块依赖外部预训练工具(人脸识别、说话人分离);强化学习训练成本高昂;记忆图谱的规模化管理和高效检索策略有待进一步研究。 🏗️ 模型架构 M3-Agent的整体架构如图1所示,由多模态大语言模型(MLLM)和多模态长期记忆两大核心部分组成,并支持两个并行的工作流程:记忆化流程与控制流程。 ...