TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #预训练 #Transformer #脑编码 #跨模态 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Stéphane d‘Ascoli(Meta AI) 通讯作者:未说明 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI) 💡 毒舌点评 亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/facebookresearch/algonauts-2025。 模型权重:论文中未提及是否公开TRIBE模型或特征提取模型的权重。 数据集:使用了公开的Courtois NeuroMod数据集(CC0许可),并说明为Algonauts 2025竞赛选择了4名被试的子集。 Demo:论文中未提及在线演示。 复现材料:提供了极其详尽的复现信息,包括完整的超参数表(表3)、数据处理流程、评估指标定义、训练细节(优化器、学习率调度、SWA、模态丢弃等),以及硬件规格。 论文中引用的开源项目:明确列出了使用的开源模型和工具,包括:Llama 3.2(Meta)、Wav2Vec-Bert 2.0(Hugging Face)、V-JEPA 2(Meta, Apache协议)、x-transformers包(MIT协议)、nilearn(BSD协议)、PyTorch。 📌 核心摘要 要解决的问题:传统神经科学研究局限于单模态、单脑区的碎片化模型,而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制,阻碍了构建统一的全脑认知模型。 方法核心:提出TRIBE,一种深度神经网络,它将文本(Llama 3.2)、音频(Wav2Vec-Bert)和视频(V-JEPA 2)基础模型的预训练表征作为输入,通过一个Transformer编码器来建模其时间动态和跨模态整合,最终预测全脑的fMRI反应。 新在哪里:与之前工作相比,TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射,并允许在多个被试的数据上联合训练一个共享模型。 主要实验结果:TRIBE在Algonauts 2025脑编码竞赛中获得第一名(267个团队),平均Pearson相关系数为0.2146,显著领先第二名(见表1)。消融实验表明,多模态模型(0.31)显著优于最佳单模态模型(视频0.25),且这种优势在前额叶、顶叶等高级联合皮层最为明显(见图4)。模型能够预测所有1000个脑区,并在多种高度分布外的电影上展现出鲁棒性(见表2)。 实际意义:为神经科学提供了一个统一的建模框架,使得从多模态自然刺激预测全脑活动成为可能,有望推动对知觉、理解等认知过程的整体性研究,并为“计算机实验”提供新工具。 主要局限性:当前模型基于粗粒度的脑区分割(1000个区域),损失了精细的空间信息;仅使用了fMRI数据,无法捕捉快速的神经电活动;目前仅在4名被试上进行训练和验证。 🏗️ 模型架构 TRIBE的整体架构旨在将三种模态的刺激信息融合,并预测全脑的BOLD响应。其流程可概括为:特征提取 -> 多模态融合 -> 时序建模 -> 全脑预测。 ...