任务规划 | 语音/音乐/音频论文速递

ICLR 2026 语音/音频论文详细分析共分析 133 篇 ICLR 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音合成（10篇）音频生成（9篇）语音识别（9篇）基准测试（9篇）音乐生成（9篇）语音对话系统（8篇）音频分类（6篇）音频问答（6篇）语音情感识别（5篇）多模态模型（5篇）音视频（4篇）音频检索（4篇）语音分离（3篇）模型评估（2篇）语音翻译（2篇）音乐信息检索（2篇）生成模型（2篇）音乐理解（2篇）视频生成（2篇）跨模态生成（1篇）脑编码（1篇）模型可解释性（1篇）音视频深度伪造检测（1篇）图像生成（1篇）数据集（1篇）语音增强 #对抗样本（1篇）语音大模型（1篇）音频编辑（1篇）音视频事件检测（1篇）生态计算（1篇）视频描述生成（1篇）视频摘要（1篇）语音问答（1篇）基准测试 #数据集（1篇）音频安全（1篇）神经网络架构（1篇）语音转换 #语音匿名化（1篇）声源定位（1篇）序列解耦（1篇）空间音频（1篇）音频分离（1篇）机器人操作（1篇）动作生成（1篇）音频场景理解（1篇）跨模态检索（1篇）语音增强（1篇）多模态推理（1篇）语音合成评估（1篇）语音生成（1篇）生物声学（1篇）模型比较（1篇）音视频联合推理（1篇）语音识别 #语音合成（1篇） ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #在线处理 #记忆机制 #任务规划 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #强化学习 | #在线处理 #记忆机制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Lin Long (Zhejiang University, Bytedance Seed) 通讯作者：Yuan Lin (Bytedance Seed) 作者列表：Lin Long (Zhejiang University, Bytedance Seed)、Yichen He (Bytedance Seed)、Wentao Ye (Zhejiang University)、Yiyuan Pan (Robotics Institute, Carnegie Mellon University)、Yuan Lin (Bytedance Seed)、Hang Li (Bytedance Seed)、Junbo Zhao (Zhejiang University)、Wei Li (Bytedance Seed) 💡 毒舌点评本文最大的亮点在于构建了一个“类人记忆”的闭环系统，并发布了极具针对性的评测集M3-Bench，直指当前智能体长期记忆能力评估的空白。但其记忆系统的动态更新与冲突解决机制（如权重投票）描述过于简略，实际大规模部署时的鲁棒性与效率存疑。 ...