ICLR 2026 - 多模态模型 论文列表

ICLR 2026 - 多模态模型 共 5 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And 8.5分 前25% 🥈 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models wi 8.0分 前25% 🥉 OmniVinci: Enhancing Architecture and Data for Omni-Modal Un 7.5分 前25% 4. Seeing, Listening, Remembering, and Reasoning: A Multimodal 7.5分 前25% 5. TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR 7.0分 前25% 📋 论文详情 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 ...

2026-05-04 · 更新于 2026-06-19 · 4 min · 671 words

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #音视频 #多模态模型 #扩散模型 #大语言模型 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 #扩散模型 | #多模态模型 #扩散模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jianwen Jiang(字节跳动 ByteDance) 通讯作者:Jianwen Jiang(字节跳动 ByteDance,论文中标注为“Project Lead and Corresponding author”) 作者列表:Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao(均隶属于字节跳动 ByteDance) 💡 毒舌点评 亮点:将认知科学的“双系统”概念巧妙映射到模型设计中,用MLLM进行高层“计划”来指导扩散模型的“生成”,这个框架思路新颖且具有启发性,伪最后帧的设计也有效解决了参考图像约束运动动态的问题。 短板:论文声称模拟了“System 2”的审慎推理,但该过程实则依赖外部MLLM的推理能力,其输出的“计划”质量取决于所用MLLM,且推理延迟(20-30秒)在实时或交互应用中是个显著负担。多模态融合的内部机制(尤其是音频、文本与视觉token如何在Transformer内“对称融合”)描述略显笼统。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 285 words

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频 #流匹配 #扩散模型 #多模态模型 #偏好优化 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学) Yanhao Zheng (未说明) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 这篇论文的亮点在于提出了一个极其简洁有效的统一架构(MS-MoE)和精确的时间对齐策略(TA-RoPE),以相对较低的模型参数(2.1B)和数据量(~1M)达到了接近商业模型(Veo3)的SOTA性能。短板是其核心贡献高度依赖特定的视频生成骨干(Wan2.1),这虽然加速了研发,但也意味着其音视频联合生成的泛化能力与独立性有待进一步验证,且其对训练数据质量与分布的敏感性(见消融研究)暗示了在开放域场景下的潜在挑战。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 327 words

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation #多模态模型 #基准测试 #音视频联合推理 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jianghan Chao(中国人民大学高瓴人工智能学院) 通讯作者:Ruihua Song(中国人民大学高瓴人工智能学院) 作者列表:Jianghan Chao(中国人民大学高瓴人工智能学院),Jianzhang Gao(中国人民大学高瓴人工智能学院),Wenhui Tan(中国人民大学高瓴人工智能学院),Yuchong Sun(中国人民大学高瓴人工智能学院),Ruihua Song(中国人民大学高瓴人工智能学院),Liyun Ru(百川智能) 💡 毒舌点评 亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架,并巧妙地利用先进的LLM构建了自动化数据生成流水线,在保证质量的同时大幅降低了标注成本;短板在于其基准数据集完全来源于SF20K这一特定影视数据集,可能存在领域偏差,且论文主要贡献是评估基准而非新的建模方法,对推动模型架构本身创新的直接贡献有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:公开。论文提供了项目页面链接 (https://jointavbench.github.io),并说明JointAVBench数据集将在该页面发布。 Demo:未提及。 复现材料:论文在附录中提供了生成流水线各阶段使用的详细Prompt模板(如图10-16),这对于复现其数据生成过程至关重要。 论文中引用的开源项目:引用了多个开源模型(Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等)和工具(PySceneDetect)用于构建基准。 整体开源计划:论文明确表示会发布数据集,但代码和模型权重的开源计划未提及。 📌 核心摘要 要解决什么问题:现有评估全模态大语言模型(Omni-LLMs)的基准测试在音视频关联严格性、音频类型多样性和场景复杂度覆盖方面存在不足,无法有效评估模型真正的联合音视频推理能力。 方法核心是什么:提出JointAVBench,一个从5个认知维度、4种音频类型、3个场景跨度构建的15项任务基准。其核心创新在于设计了一个三阶段半自动化数据生成流水线:首先生成全模态描述(视频、语音、声音事件、音乐、声纹特征),然后利用LLM合成严格依赖音视频联合信息的问答对,最后通过通用到特定的多层质量控制确保数据质量。 与已有方法相比新在哪里:这是首个同时满足“严格音视频关联(AV Correlation Ratio 100%)”、“覆盖四种音频类型(含声纹特征)”和“涵盖单场景、跨场景、全场景”的综合基准。与现有基准(如WorldSense,AV Corr. 62.9%)相比,其问题设计更严谨地强制依赖双模态信息。 主要实验结果如何:在JointAVBench上评估了主流Omni-LLMs、Video-LLMs和Audio-LLMs。结果显示,即使最强的Omni-LLM(Gemini2.5-Pro)平均准确率也仅为62.6%,显著优于单模态模型,但在跨场景推理等任务上表现仍不理想。模型在声纹特征和语音相关任务(如SPER, SPL)上表现最差,在涉及声音事件和音乐的任务上表现相对较好。 实际意义是什么:为评估和推动具有真正音视频联合推理能力的Omni-LLM发展提供了关键的、标准化的评测工具,明确指出了当前模型在处理抽象音频信息(如声纹特征、情感)和复杂跨场景推理时的主要短板。 主要局限性是什么:数据源单一(仅SF20K短片),可能引入领域偏差;设计的任务分类法虽全面但无法穷尽所有音视频推理能力;受计算资源限制,实验评估的模型数量有限。 🏗️ 模型架构 本文并非提出一个新的模型架构,而是设计一个评估基准。其核心贡献在于数据生成与质量控制流水线。论文详细描述的流水线架构如下: ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 358 words

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

📄 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection #音乐理解 #多模态模型 #端到端 #音乐信息检索 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Benjamin Shiue-Hal Chou(Purdue University) 通讯作者:未说明(论文未明确指定,但联系邮箱主要为{作者名}@purdue.edu,可能为共同指导) 作者列表: Benjamin Shiue-Hal Chou(Purdue University) Purvish Jajal(Purdue University) Nick John Eliopoulos(Purdue University) James C. Davis(Purdue University) George K. Thiruvathukal(Loyola University Chicago) Kristen Yeon-Ji Yun(Purdue University) Yung-Hsiang Lu(Purdue University) 💡 毒舌点评 亮点:论文将“音乐练习错误检测”这一序列比较问题,巧妙地转化为一个多模态编码与解码任务,并且通过架构设计(Ladder编码器)和输入表示(符号提示)两个层面,针对性地解决了之前方法在对齐能力和输入歧义上的痛点,设计思路清晰且有效。短板:符号提示策略在更简单的CocoChorales-E数据集上(尤其对Extra Note)带来的增益有限,甚至略有下降,表明这种多模态融合的收益可能与任务复杂度强相关;此外,模型对大幅节奏变化和复杂和弦遮蔽的处理仍有明显局限。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 331 words

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #音频生成 #多模态模型 #扩散模型 #自监督学习 #生成模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #多模态模型 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yasaman Haghighi(Ecole Polytechnique Fédérale de Lausanne (EPFL)) 通讯作者:Alexandre Alahi(Ecole Polytechnique Fédérale de Lausanne (EPFL)) 作者列表:Yasaman Haghighi(EPFL)、Bastien van Delft(EPFL)、Mariam Hassan(EPFL)、Alexandre Alahi(EPFL) 💡 毒舌点评 这篇论文的亮点在于其极致的“自给自足”哲学——用模型自己最强的层当老师,去教最弱的层,完全抛开了笨重的外部模型(如DINOv2),这个想法既优雅又实用,在多个模态上都跑通了,训练加速效果非常惊人。但短板是,这种“强层指导弱层”的启发式规则选择(比如跳过最后20%的层)感觉有点“经验主义”,理论上的解释(良性循环)目前更多是一种假设,缺乏更深层次的数学证明或机理分析,让人忍不住想问:这种对齐会不会在后期“扼杀”特征多样性,或者让模型过早陷入某种次优的表示空间? 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/vita-epfl/LayerSync.git。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用的是公开数据集(ImageNet, MTG-Jamendo, HumanML3D, CLEVRER, MixKit),论文中未说明获取方式,但这些是常见公开数据集。 Demo:论文中未提及在线演示。 复现材料:非常充分。论文附录(Section L, M)详细列出了所有实验的超参数设置(表18, 19)、训练硬件、采样器配置、评估指标细节等。算法伪代码(Algorithm 1)也在附录中给出。 依赖的开源项目:主要依赖于SiT(Ma et al., 2024)作为基础模型架构,以及Stable Diffusion的VAE用于图像编码。 📌 核心摘要 这篇论文旨在解决使用外部大型预训练模型(如视觉语言模型)来引导扩散模型中间层表示时所带来的计算开销大、数据依赖强、跨模态迁移难的问题。作者提出了一种名为LayerSync的自包含、即插即用的正则化方法。其核心思想是:扩散模型内部不同层学习的特征质量存在异质性,深层的特征语义更丰富。因此,可以利用模型自身的这些深层强特征作为“内在引导信号”,通过最大化浅层弱特征与深层强特征之间的相似度,来正则化和提升浅层特征的学习。与已有的外部引导方法(如REPA)相比,LayerSync完全不依赖额外的模型或数据,计算开销几乎为零;与同属自包含范畴的Dispersive Loss方法相比,它提供了更具方向性的学习信号。实验表明,LayerSync在图像生成任务上可将训练加速超过8.75倍(FID改善23.6%),并在音频、人类动作和视频生成任务上均一致提升了生成质量和训练效率。此外,该方法还改善了模型各层的内部表征质量。其局限性包括:关键的层选择策略依赖启发式规则,且“良性循环”的理论支撑有待加强。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 311 words

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #多模态模型 #自监督学习 #跨模态检索 #零样本 #模型评估 ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Chiraag Kaushik(Georgia Institute of Technology, School of Electrical and Computer Engineering) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Chiraag Kaushik(Georgia Institute of Technology)、Davis Barch(Dolby Laboratories)、Andrea Fanelli(Dolby Laboratories) 💡 毒舌点评 这篇论文理论与实践结合得不错,Theorem 1为“分裂字典”问题提供了理论保证,而提出的组稀疏+掩码方案在CLIP/CLAP上也确实有效提升了多模态概念的数量和语义性。但最大的短板是实验上缺乏代码开源,对于一篇方法论论文来说,这大大削弱了其即时影响力和社区复现验证的价值,使得“方法有效性”部分打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开训练好的SAE/GSAE/MGSAE模型权重。 数据集:使用了公开数据集(CC3M, JamendoMaxCaps, MusicBench等),论文中未说明是否提供额外的处理脚本。 Demo:未提及在线演示。 复现材料:论文在附录A.2中提供了较为详细的实验设置,包括数据集、超参数范围选择方法、训练步数等,有助于复现。 论文中引用的开源项目:引用了dictionary_learning工具库(Marks et al., 2024)作为TopK SAE的实现基础。 📌 核心摘要 这篇论文旨在解决稀疏自编码器(SAE)应用于多模态对齐嵌入(如CLIP)时产生的“分裂字典”问题,即学习到的稀疏特征大多只对单一模态激活,损害了跨模态对齐。核心方法包括:理论上证明了在对齐嵌入空间上,存在比分裂字典对齐性更好的非分裂字典;提出组稀疏自编码器(GSAE)和掩码组稀疏自编码器(MGSAE),通过组稀疏损失(鼓励配对样本的稀疏码具有相同支撑集)和跨模态随机掩码来引导学习多模态字典。与标准SAE相比,该方法显著增加了跨模态激活的神经元数量,减少了“死神经元”,并提升了跨模态零样本任务的性能。例如,在CLIP图像/文本任务上,MGSAE在CIFAR-10上的零样本分类准确率达到84.2%,比标准TopK SAE高出18.5个百分点;在CLAP音频/文本任务上,MGSAE在NSynth乐器分类上达到35.4%,远超SAE的26.5%。该工作的实际意义在于为多模态模型的可解释性分析和可控生成提供了更好的分解工具,其主要局限是依赖配对的多模态数据进行训练,且未提供开源代码。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 290 words

LLM2Fx-Tools: Tool Calling for Music Post-Production

📄 LLM2Fx-Tools: Tool Calling for Music Post-Production #音乐信息检索 #大语言模型 #多模态模型 #数据集 ✅ 7.0/10 | 前25% | #音乐信息检索 | #大语言模型 | #多模态模型 #数据集 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:SeungHeon Doh(KAIST, Sony AI)、Junghyun Koo(Sony AI)(共同第一作者) 通讯作者:未明确说明 作者列表:SeungHeon Doh (KAIST, Sony AI), Junghyun Koo (Sony AI), Marco A. Martínez-Ramírez (Sony AI), Woosung Choi (Sony AI), Wei-Hsiang Liao (Sony AI), Qiyu Wu (Sony Group Corporation), Juhan Nam (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 💡 毒舌点评 亮点是这篇论文首次将LLM的工具调用范式引入到音频效果链生成任务,框架设计完整(从感知、推理到执行),并配套发布了高质量的对话式数据集LP-Fx,为后续研究建立了不错的基础。短板是实验验证范围主要局限于单声道、单乐器音频,在真正复杂的多轨混音场景下有效性存疑,且“可解释性”在面对多效果器组合产生的复杂听感时可能大打折扣。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 385 words

MARS-Sep: Multimodal-Aligned Reinforced Sound Separation

📄 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation #语音分离 #强化学习 #多模态模型 #对比学习 #跨模态 ✅ 7.5/10 | 前25% | #语音分离 | #强化学习 | #多模态模型 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zihan Zhang (Zhejiang University) 通讯作者:Tao Jin (Zhejiang University) 作者列表:Zihan Zhang (Zhejiang University), Xize Cheng (Zhejiang University), Zhennan Jiang (Institute of Automation, Chinese Academy of Sciences), Dongjie Fu (Zhejiang University), Jingyuan Chen (Zhejiang University), Zhou Zhao (Zhejiang University), Tao Jin (Zhejiang University) 💡 毒舌点评 亮点:该工作巧妙地将大语言模型对齐的RLHF范式“降维打击”式地应用于声音分离任务,通过设计因子化Beta掩码策略和多模态融合奖励,系统性地解决了传统方法中信号指标优化与语义保真度脱节的核心矛盾,实验设计全面且具有说服力。短板:方法的核心——多模态奖励模型严重依赖预训练的ImageBind编码器,其表征能力的天花板可能间接限制了MARS-Sep所能达到的最终性能上限,且论文中缺乏对这一依赖性风险的深入讨论。 ...

2026-05-04 · 更新于 2026-06-19 · 5 min · 908 words

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #大语言模型 #语音识别 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sara Papi(Fondazione Bruno Kessler (Italy)) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Sara Papi (Fondazione Bruno Kessler), Maike Züfle (Karlsruhe Institute of Technology), Marco Gaido (Fondazione Bruno Kessler), Beatrice Savoldi (Fondazione Bruno Kessler), Danni Liu (Karlsruhe Institute of Technology), Ioannis Douros (Fondazione Bruno Kessler), Luisa Bentivogli (Fondazione Bruno Kessler), Jan Niehues (Karlsruhe Institute of Technology) 💡 毒舌点评 亮点:论文填补了多模态、跨语言、长上下文指令跟随评测的关键空白,创建了一个系统对齐、人工标注的高质量基准,对推动通用多模态大模型发展有明确价值。 短板:论文的核心贡献是建立评测基准,而非提出新的建模方法,对现有模型“能力不足”的诊断虽清晰,但并未直接提供解决方案;评测模型均为已发表的开源或商用模型,缺乏对自身新方法的验证。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 289 words