ICLR 2026 - 脑编码
共 1 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | TRIBE: TRImodal Brain Encoder for whole-brain fMRI response | 9.5分 | 前10% |
📋 论文详情
🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer
👥 作者与机构
- 第一作者:Stéphane d‘Ascoli(Meta AI)
- 通讯作者:未说明
- 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI)
💡 毒舌点评
亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。
🔗 开源详情
- 代码:提供了代码仓库链接:
https://github.com/facebookresearch/algonauts-2025。 - 模型权重:论文中未提及是否公开TRIBE模型或特征提取模型的权重。
- 数据集:使用了公开的Courtois NeuroMod数据集(CC0许可),并说明为Algonauts 2025竞赛选择了4名被试的子集。
- Demo:论文中未提及在线演示。
- 复现材料:提供了极其详尽的复现信息,包括完整的超参数表(表3)、数据处理流程、评估指标定义、训练细节(优化器、学习率调度、SWA、模态丢弃等),以及硬件规格。
- 论文中引用的开源项目:明确列出了使用的开源模型和工具,包括:Llama 3.2(Meta)、Wav2Vec-Bert 2.0(Hugging Face)、V-JEPA 2(Meta, Apache协议)、x-transformers包(MIT协议)、nilearn(BSD协议)、PyTorch。
📌 核心摘要
- 要解决的问题:传统神经科学研究局限于单模态、单脑区的碎片化模型,而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制,阻碍了构建统一的全脑认知模型。
- 方法核心:提出TRIBE,一种深度神经网络,它将文本(Llama 3.2)、音频(Wav2Vec-Bert)和视频(V-JEPA 2)基础模型的预训练表征作为输入,通过一个Transformer编码器来建模其时间动态和跨模态整合,最终预测全脑的fMRI反应。
- 新在哪里:与之前工作相比,TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射,并允许在多个被试的数据上联合训练一个共享模型。
- 主要实验结果:TRIBE在Algonauts 2025脑编码竞赛中获得第一名(267个团队),平均Pearson相关系数为0.2146,显著领先第二名(见表1)。消融实验表明,多模态模型(0.31)显著优于最佳单模态模型(视频0.25),且这种优势在前额叶、顶叶等高级联合皮层最为明显(见图4)。模型能够预测所有1000个脑区,并在多种高度分布外的电影上展现出鲁棒性(见表2)。
- 实际意义:为神经科学提供了一个统一的建模框架,使得从多模态自然刺激预测全脑活动成为可能,有望推动对知觉、理解等认知过程的整体性研究,并为“计算机实验”提供新工具。
- 主要局限性:当前模型基于粗粒度的脑区分割(1000个区域),损失了精细的空间信息;仅使用了fMRI数据,无法捕捉快速的神经电活动;目前仅在4名被试上进行训练和验证。