📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

#多模态模型 #预训练 #Transformer #脑编码 #跨模态

🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高

👥 作者与机构

  • 第一作者:Stéphane d‘Ascoli(Meta AI)
  • 通讯作者:未说明
  • 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI)

💡 毒舌点评

亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。

🔗 开源详情

  • 代码:提供了代码仓库链接:https://github.com/facebookresearch/algonauts-2025
  • 模型权重:论文中未提及是否公开TRIBE模型或特征提取模型的权重。
  • 数据集:使用了公开的Courtois NeuroMod数据集(CC0许可),并说明为Algonauts 2025竞赛选择了4名被试的子集。
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了极其详尽的复现信息,包括完整的超参数表(表3)、数据处理流程、评估指标定义、训练细节(优化器、学习率调度、SWA、模态丢弃等),以及硬件规格。
  • 论文中引用的开源项目:明确列出了使用的开源模型和工具,包括:Llama 3.2(Meta)、Wav2Vec-Bert 2.0(Hugging Face)、V-JEPA 2(Meta, Apache协议)、x-transformers包(MIT协议)、nilearn(BSD协议)、PyTorch。

📌 核心摘要

  1. 要解决的问题:传统神经科学研究局限于单模态、单脑区的碎片化模型,而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制,阻碍了构建统一的全脑认知模型。
  2. 方法核心:提出TRIBE,一种深度神经网络,它将文本(Llama 3.2)、音频(Wav2Vec-Bert)和视频(V-JEPA 2)基础模型的预训练表征作为输入,通过一个Transformer编码器来建模其时间动态和跨模态整合,最终预测全脑的fMRI反应。
  3. 新在哪里:与之前工作相比,TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射,并允许在多个被试的数据上联合训练一个共享模型。
  4. 主要实验结果:TRIBE在Algonauts 2025脑编码竞赛中获得第一名(267个团队),平均Pearson相关系数为0.2146,显著领先第二名(见表1)。消融实验表明,多模态模型(0.31)显著优于最佳单模态模型(视频0.25),且这种优势在前额叶、顶叶等高级联合皮层最为明显(见图4)。模型能够预测所有1000个脑区,并在多种高度分布外的电影上展现出鲁棒性(见表2)。
  5. 实际意义:为神经科学提供了一个统一的建模框架,使得从多模态自然刺激预测全脑活动成为可能,有望推动对知觉、理解等认知过程的整体性研究,并为“计算机实验”提供新工具。
  6. 主要局限性:当前模型基于粗粒度的脑区分割(1000个区域),损失了精细的空间信息;仅使用了fMRI数据,无法捕捉快速的神经电活动;目前仅在4名被试上进行训练和验证。

🏗️ 模型架构

TRIBE的整体架构旨在将三种模态的刺激信息融合,并预测全脑的BOLD响应。其流程可概括为:特征提取 -> 多模态融合 -> 时序建模 -> 全脑预测。

TRIBE方法概览图

如图2所示,该模型架构图展示了从多模态输入到预测输出的完整流程。

  1. 输入:视频剪辑、对应的音频文件和带时间戳的文本转录稿。
  2. 单模态特征提取:
    • 文本:将每个词及其前1024个词上下文输入Llama-3.2-3B,提取中间层(相对深度0.5-1)的词嵌入,按2Hz时间网格对齐并求和,得到时间序列。
    • 音频:将60秒音频块输入Wav2Vec-Bert-2.0,提取中间层(0.5-1)的隐藏表示,并从50Hz重采样至2Hz。
    • 视频:以2Hz频率,每次输入过去4秒的64帧到V-JEPA 2,并对所有patch token进行空间平均,提取中间层(0.5-1)的特征。
  3. 模态内压缩与融合:对每个模态,将其Transformer的中间层特征分成两组(相对深度0.5-0.75和0.75-1.0),各组内对层维度取平均,得到两个时间步长的嵌入。随后将这两个嵌入在维度上拼接,并通过一个线性层映射到共享维度D=1024,再经过层归一化。最后,将三个模态的特征在序列维度上拼接,形成形状为 [3 * N, 1024] 的多模态嵌入序列。
  4. 时序建模(Transformer编码器):为多模态嵌入序列加入可学习的位置编码,然后输入一个8层8头的Transformer编码器。这使模型能够捕捉不同时间步以及不同模态之间的信息交互。
  5. 输出:Transformer的输出经过自适应平均池化,将序列压缩回与fMRI TR(1.49秒)对齐的长度(即 N 个时间点)。最后,通过一个主体条件层(为每个被试学习独立的线性投影层),将 N 个时间点的嵌入同时映射到1000维的脑区预测目标上。损失函数为预测值与真实fMRI信号之间的均方误差。

💡 核心创新点

  1. 端到端的多模态联合编码:TRIBE直接联合处理来自文本、音频和视频的原始特征,通过一个统一的网络学习模态间的动态整合。之前的模型多为单模态,或对多模态结果仅作简单线性组合,无法学习复杂的跨模态交互,而TRIBE在高级联合皮层(如前额叶)显著超越了最佳单模态模型(图4b)。
  2. 非线性的时序动态建模:使用Transformer替代传统的线性映射(如岭回归)或简单的循环网络,来建模刺激特征与大脑响应之间复杂的、非线性的时间对应关系。消融实验显示,移除Transformer会使性能从0.31骤降至0.23(图6a)。
  3. 跨主体的联合训练范式:通过引入“主体条件层”,使得一个共享的主体无关模型能够在所有被试的数据上联合训练,从而利用大脑间的共性信息并提高模型泛化能力。训练时每个主体的投影层独立,预测时共享模型主体。联合训练比单独训练每个主体性能提升约0.02(图6a)。

🔬 细节详述

  • 训练数据:使用Courtois NeuroMod数据集,包含6名被试观看大量自然视频(电视剧《老友记》、四部电影)产生的fMRI数据。本工作选取其中4名被试。预处理后,全脑体素信号被映射到MNI152标准空间,并使用Schaefer图谱划分为1000个非重叠皮层区域,每个区域产生一个fMRI时间序列。信号按每个扫描会话(约15分钟)进行z-score标准化。数据划分中,确保相同的视频在所有被试中被保留用于验证,防止数据泄露。
  • 损失函数:使用均方误差(MSE) 作为损失函数,直接最小化预测的BOLD信号与真实信号之间的差异。评估指标为预测信号与真实信号之间的皮尔逊相关系数。
  • 训练策略:
    • 优化器:AdamW。
    • 学习率:初始学习率 10^{-4},在前10%的步数内线性预热,之后遵循余弦衰减调度。
    • Batch size:16。
    • 训练轮数:最多15轮,并采用早停法(基于验证集皮尔逊分数)。
    • 正则化与泛化:使用随机权重平均(SWA),在验证指标接近平台期后,对每个epoch结束时的模型权重进行平均。训练时引入模态丢弃(Modality Dropout):以概率p(默认0.2)随机屏蔽每个模态的输入(置零),但确保至少保留一个模态,以鼓励模型不过度依赖单一模态并提升鲁棒性。
  • 关键超参数:
    • 模型总参数量:980M(可训练部分)。基础特征提取模型:Llama-3.2-3B(3B参数)、Wav2Vec-Bert-2.0(600M参数)、V-JEPA 2(700M参数)。
    • 输入频率 f = 2 Hz,预测窗口长度 N = 100 TR(对应约149秒)。
    • Transformer编码器:8层,8个注意力头,隐藏维度与输入特征一致。
    • 模态特征压缩:每个模态分2层组(相对深度0.5-0.75和0.75-1.0),每组内平均,然后拼接。
    • 集成:训练M=1000个模型进行集成,每个模型使用不同的初始化种子和超参数组合(见表3),最终对每个脑区根据验证集分数对模型进行加权平均(温度0.3)。
  • 训练硬件:特征提取在128个32GB V100 GPU上耗时24小时。TRIBE模型本身的训练在单个32GB V100 GPU上耗时24小时。
  • 推理细节:推理时,模型以滑动窗口方式处理输入的连续时间序列,并为每个TR预测一个1000维的响应向量。由于Transformer和主体条件层的设计,整个预测窗口(N个TR)可以同时输出,这使得推理过程非常高效。

📊 实验结果

TRIBE的评估主要在Algonauts 2025竞赛的两个阶段进行,并进行了详细的内部消融分析。

主要竞赛结果

排名平均得分(mean ± std)Subject 1Subject 2Subject 3Subject 5
1 (Ours)0.2146 ± 0.03120.23810.21050.23770.1720
20.2096 ± 0.02830.23530.20460.22680.1718
30.2094 ± 0.02150.22330.20720.22710.1798
40.2085 ± 0.02670.22950.20030.23000.1743
50.2055 ± 0.02910.23060.20100.22400.1662

表1:Algonauts 2025竞赛排行榜前五名。TRIBE以显著优势获得第一。

在不同电影上的泛化性能

是否分布外(OOD)电影名称平均得分(mean ± std)Subject 1Subject 2Subject 3Subject 5
Friends Season 70.3195 ± 0.02890.34190.32390.33460.2775
Pulp Fiction0.2604 ± 0.01370.27650.26110.24310.2610
Princess Mononoke0.2449 ± 0.05720.28160.25070.28510.1623
Passe-partout0.2323 ± 0.05250.27630.25870.23700.1573
World of Tomorrow0.1924 ± 0.03230.22100.16060.21960.1686
Planet Earth0.1886 ± 0.03800.14830.20290.23310.1699
Charlie Chaplin0.1686 ± 0.05510.22490.12890.20800.1128

表2:模型在不同分布条件下的性能。即使是高度分布外的无声电影、动画和自然纪录片,模型仍能获得可观的分数。

多模态消融实验

模型验证集皮尔逊得分
仅文本 (T)0.22
仅音频 (A)0.24
仅视频 (V)0.25
音频+文本 (A+T)~0.28 (从图4a估算)
音频+视频 (A+V)~0.29 (从图4a估算)
文本+视频 (T+V)0.30
三模态 (A+T+V)0.31

图4的消融实验结果图清晰地展示了:多模态模型(尤其是三模态组合)在平均编码得分上显著优于任何单模态模型,验证了模态互补性的重要性。

模型组件消融实验

模型消融实验结果图

图6a的消融实验结果图展示了:移除“多主体训练”或“Transformer”组件都会导致模型性能下降,其中移除Transformer的影响尤为巨大(从0.31降至0.23),证实了非线性时序建模和跨主体学习的关键作用。

⚖️ 评分理由

  • 学术质量:6.5/7 - 创新性明确,系统性地解决了现有脑编码模型的三大痛点;方法设计合理,技术细节清晰;实验极为充分,既有大规模竞赛的端到端验证,也有深入的消融分析(模态、模型组件、超参数缩放律)和神经科学意义的探索(模态在脑区的分布);所有结论都有坚实的数据支撑(表1、表2、图4、图6)。
  • 选题价值:1.8/2 - 选题直指“构建整合性大脑认知模型”这一神经科学的终极目标之一,属于高度前沿和重要的方向。其方法不仅适用于fMRI,其框架思想可扩展至其他神经成像模态,对AI与认知神经科学的交叉领域有显著推动作用。
  • 开源与复现加成:1.0/1 - 论文提供了完整的代码仓库链接(https://github.com/facebookresearch/algonauts-2025),并公开了所有关键的超参数设置(表3)、数据集使用信息(Courtois NeuroMod, CC0许可)和训练细节。这使得研究社区能够高度可信地复现其结果,是开源科学实践的典范。

← 返回 ICLR 2026 论文分析