📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
#多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理
✅ 7.5/10 | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练
学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高
👥 作者与机构
- 第一作者:Stéphane d‘Ascoli(Meta AI)
- 通讯作者:未明确说明(根据邮箱格式,所有作者邮箱均为个人邮箱,无明确标注通讯作者)
- 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI)
💡 毒舌点评
这篇论文在Algonauts竞赛中大获全胜,其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点,将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而,对于一篇旨在“通向整合认知模型”的工作,其核心Transformer编码器的细节(如注意力机制如何具体捕捉跨模态和跨时间信息)描述过于简略,宛如一个黑箱,这与论文宣称的“非线性”优势相称却不够透明。
🔗 开源详情
- 代码:是。论文提供了代码仓库链接:https://github.com/facebookresearch/algonauts-2025。
- 模型权重:未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开,仅提到了所使用的预训练基础模型(Llama, Wav2Vec-Bert, V-JEPA 2)的来源和许可证。
- 数据集:未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道(CC0许可证),但论文未提供直接下载链接。
- Demo:未提及。
- 复现材料:是。论文提供了详细的训练策略、超参数表格(表3)、硬件配置和模型架构描述,结合开源代码,复现细节较为充分。
- 论文中引用的开源项目:
- 预训练模型:Llama-3.2-3B, Wav2Vec-Bert-2.0, V-JEPA 2。
- 软件库:x-transformers, nilearn, PyTorch。
- 数据集:Courtois NeuroMod。
- 论文中未提及开源计划:未提及模型权重的开源计划,未提及数据集的直接下载方式。
📌 核心摘要
这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题,致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激(视频)反应的通用模型。其核心方法是TRIBE模型,它分别从预训练的视频、音频和文本大模型中提取动态特征,并通过一个Transformer编码器融合这些特征,最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比,TRIBE的新颖之处在于它是首个同时实现了非线性融合(通过Transformer)、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中,TRIBE取得了第一名(平均编码分数0.2146),显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层(如前额叶、顶枕颞叶皮层)的显著增益,以及Transformer和多被试训练的关键作用。该工作表明,多模态信息整合对于准确预测全脑活动至关重要,为构建整合性的人脑表征模型铺平了道路。其主要局限性在于:1) 在1000个脑区的粗粒度上建模,空间分辨率有限;2) 仅处理fMRI数据,缺乏更精确的时间分辨率;3) 仅基于4名被试的数据训练,泛化到新被试的能力尚未验证。
🏗️ 模型架构
TRIBE模型的整体架构旨在将三种模态的刺激信息映射到全脑fMRI响应。其核心流程如图2所示。

- 输入与特征提取:
- 输入:视频片段、对应的音频文件、以及带时间戳的文本转录稿。
- 文本嵌入:使用预训练的
Llama-3.2-3B语言模型。对于每个词,拼接其前面最多1024个词作为上下文输入模型,取中间层表示(维数D_text=3072)。然后将嵌入在时间上对齐到2Hz的网格,对齐方法是将一个时间仓内出现的所有词的嵌入求和。 - 音频嵌入:使用预训练的
Wav2Vec-Bert-2.0。将音频切成60秒的块,输入模型,提取中间层表示(维数D_audio=1024)。将50Hz的输出重采样到2Hz。 - 视频嵌入:使用预训练的
V-JEPA 2 gigantic。在2Hz的时间网格上,取当前时间点之前4秒(共64帧)作为输入。为降低计算量,对模型输出的时空patch token进行空间平均,得到时间序列表示(维数D_video=1408)。这会损失空间位置信息。
- 模态融合预处理:
- 对每个模态的中间层特征,按层相对深度分为L=2组(0.5-0.75 和 0.75-1.0),在组内平均,以保留从浅层到深层的信息。
- 每个模态经过一个线性层投影到共享维度
D=1024,然后层归一化。 - 将三个模态在特征维度上拼接,形成每个时间步
[3 * 1024]维的多模态嵌入向量,时间步长为0.5秒(2Hz)。
- Transformer编码器:
- 将上述多模态时间序列输入一个8层、8头的Transformer编码器。加入可学习的位置嵌入。
- Transformer允许时间步之间交换信息,能够建模动态依赖和跨模态交互。图9显示其注意力权重峰值出现在当前时间点之后5-10秒,与血流动力学响应函数一致,表明模型能自动学习延迟响应。
- 输出与预测:
- 在Transformer输出后,使用自适应平均池化层将时间步序列压缩到与输入视频窗口对应的N个TR(重复时间)步。每步的嵌入维度为
3*1024。 - 被试层:这是一个条件层,针对每个被试学习一个独立的线性投影矩阵,将Transformer的输出映射到目标空间(1000个脑区的fMRI值)。这允许一个模型同时预测多个被试的大脑响应。
- 训练与目标:
- 目标(Ground Truth):经预处理和z-score化的全脑BOLD信号,时间分辨率为TR=1.49秒。
- 为应对血流动力学延迟,将目标相对于输入偏移5秒。
- 损失函数:预测值与目标之间的均方误差(MSE)。
设计动机: 该架构直接针对线性模型、单模态和被试特异性这三个传统限制。使用预训练大模型特征是为了利用其与大脑表征的对齐性;Transformer实现非线性时空融合;被试层实现多被试联合学习。
💡 核心创新点
首个端到端多模态非线性脑编码模型:
- 局限:此前模型大多使用线性映射(Ridge Regression)连接AI表征与大脑响应,且多为单模态。
- 创新:TRIBE将视频、音频、文本三种模态的预训练特征输入一个Transformer编码器,通过端到端训练来学习最佳的模态融合方式,以预测大脑响应。
- 收益:在全脑平均性能上显著优于任何单模态模型,尤其是在高级联合皮层(如图4b所示),增益可达30%。
多被试联合训练架构:
- 局限:由于个体间大脑响应差异大,传统方法为每个被试单独训练模型,无法利用被试间的共性。
- 创新:引入一个被试特定的线性层,使得一个共享的Transformer主干网络可以同时为不同被试生成预测,仅通过该层进行个性化调整。
- 收益:与单独训练相比,提升了编码分数(图6a),并证明了被试间共享表征的可行性。
利用大模型多层级特征并进行时序对齐:
- 局限:简单使用预训练模型的最终层特征可能不是最优,且不同模态的特征在时间上原始对齐方式不同。
- 创新:对每个模态,提取其基础模型不同深度层的特征并分组平均,以融合低级与高级信息。同时,将文本和视频特征重采样到与音频一致的2Hz频率上,实现时间对齐。
- 收益:图7和图8显示,较深的层特征对高级皮层的编码效果更好,验证了该设计的合理性。
🔬 细节详述
- 训练数据:基于Courtois NeuroMod数据集。包含6名被试观看《老友记》和4部电影的fMRI数据,总计超80小时。论文中使用Algonauts竞赛策划的4名被试子集进行训练。预处理包括:fMRIprep、MNI标准空间投影、使用Schaefer图谱进行1000个脑区分割,然后在每个扫描会话内对每个脑区进行z-score归一化。
- 损失函数:均方误差(MSE)。评估指标为每个脑区预测与真实BOLD信号的皮尔逊相关系数(Pearson ρ),并对所有脑区取平均。
- 训练策略:
- 优化器:AdamW。
- 学习率:10^-4,前10%的步数线性warmup,之后采用余弦衰减。
- Batch Size:16。
- 训练轮数:最多15个epoch,使用基于验证集皮尔逊分数的早停。
- 模型集成:训练M=1000个不同初始化和随机种子的模型,并对超参数进行网格搜索采样(表3)。对每个脑区,根据验证集性能对1000个模型的预测进行加权平均(权重由性能的softmax分布决定,温度0.3)。
- 稳定训练技巧:使用了随机权重平均(SWA),在验证指标进入平台期后,对每个epoch末的模型权重进行平均。
- 关键超参数:
- Transformer编码器:8层,8头。
- 特征提取:文本模型(Llama-3.2-3B,3072维),音频模型(Wav2Vec-Bert-2.0,1024维),视频模型(V-JEPA 2 gigantic,1408维)。
- 融合后维度:每模态1024维,拼接后3072维。
- 输入窗口:T = N * TR,其中N=100 TR,采样频率f=2Hz。
- 训练硬件:特征提取在128块V100 32GB GPU上耗时24小时。TRIBE模型训练在单块V100上耗时24小时。
- 推理细节:未详细说明解码策略等,因为是回归任务。重点在于使用集成模型进行加权预测。
- 正则化:引入了模态随机丢弃:训练时,以概率p(文中未明确具体值,消融实验用了0.2)将每个模态的输入置零,但至少保留一个模态未被遮蔽,以鼓励模型不过度依赖单一模态,并能处理缺失模态输入。
📊 实验结果
主要任务:Algonauts 2025竞赛结果 TRIBE在267个团队中获得第一名。
表1:竞赛排行榜前5名(训练集为Friends第7季,验证集为相同分布视频)
排名 平均分数(均值±标准差) 被试1 被试2 被试3 被试5 1 (TRIBE) 0.2146 ± 0.0312 0.2381 0.2105 0.2377 0.1720 2 0.2096 ± 0.0283 0.2353 0.2046 0.2268 0.1718 3 0.2094 ± 0.0215 0.2233 0.2072 0.2271 0.1798 4 0.2085 ± 0.0267 0.2295 0.2003 0.2300 0.1743 5 0.2055 ± 0.0291 0.2306 0.2010 0.2240 0.1662 表2:模型在不同分布(OOD)电影上的泛化性能
分布外(OOD) 电影 平均分数 被试1 被试2 被试3 被试5 ✗ (同分布) Friends Season 7 0.3195 ± 0.0289 0.3419 0.3239 0.3346 0.2775 ✓ Pulp Fiction 0.2604 ± 0.0137 0.2765 0.2611 0.2431 0.2610 ✓ Princess Mononoke 0.2449 ± 0.0572 0.2816 0.2507 0.2851 0.1623 ✓ Passe-partout 0.2323 ± 0.0525 0.2763 0.2587 0.2370 0.1573 ✓ World of Tomorrow 0.1924 ± 0.0323 0.2210 0.1606 0.2196 0.1686 ✓ Planet Earth 0.1886 ± 0.0380 0.1483 0.2029 0.2331 0.1699 ✓ Charlie Chaplin 0.1686 ± 0.0551 0.2249 0.1289 0.2080 0.1128
关键消融实验(图4a & 图6a):
- 模态消融:单模态(文本、音频、视频)性能分别为0.22, 0.24, 0.25。最佳双模态(文本+视频)为0.30,全三模态为0.31,证明了多模态融合的互补性。
- 模型组件消融:移除多被试训练,分数从0.31降至0.29;移除Transformer(即不进行时序融合),分数大幅降至0.23。
全脑预测与噪声上限分析(图3):
- 模型预测了所有1000个脑区,且均显著高于随机水平(q(FDR) < 10^-3)。
- 归一化皮尔逊分数为0.54±0.1,意味着平均捕获了约54%的可解释方差。在听觉和语言皮层,该值超过80%。
多模态交互的脑区特异性(图4b, 图5):
- 多模态模型的增益在高级联合皮层(如前额叶、顶枕颞叶交界处)最大。
- 图5显示,不同模态主导不同的脑区(文本:额叶/顶叶;音频:颞叶;视频:枕叶/部分顶叶),并且存在模态交互的脑区(如文本+音频在颞上回,视频+音频在腹侧/背侧视觉皮层)。
Scaling Laws(图6b, 6c):
- 增加训练数据(会话数)和语言模型的上下文长度,均能持续提升编码性能,且未出现平台期。
⚖️ 评分理由
学术质量:5.5/7
- 创新性(+):首次将“非线性、多被试、多模态”三个关键特性整合进一个端到端的脑编码框架,并在竞赛中取得SOTA,是该任务的重要推进。
- 技术正确性(+):模型设计逻辑清晰,消融实验(图4a,6a)充分验证了各模块的贡献。
- 实验充分性(-):实验主要围绕Algonauts竞赛任务展开。虽然内部消融实验充分,但缺乏与已发表文献中其他先进单模态或多模态脑编码模型(如在Courtois数据集上报道的线性或浅层非线性模型)的直接性能对比(表1仅对比了竞赛其他团队,未说明其技术细节)。此外,对Transformer内部工作机制的可视化(如图9注意力图)解释力有限。
- 证据可信度(+):基于大规模、高质量的Courtois NeuroMod数据集,评估指标(皮尔逊相关)是领域标准,噪声天花板分析(图3)增加了结果的可信度。
选题价值:2.0/2
- 前沿性(+):该工作直击神经科学与AI交叉领域的核心挑战——构建统一的认知模型,是计算神经科学的重要前沿。
- 潜在影响(+):其范式可能改变脑编码研究的现状,从碎片化走向整合,并为理解大脑信息处理提供新工具。
- 应用空间(中):长期看有脑机接口、认知监测等应用潜力,但论文聚焦于基础研究。
- 读者相关性:对于���频/语音领域的读者,论文中音频模态的处理和跨模态交互的发现(图5)有直接参考价值。
开源与复现加成:+1.0/1
- 论文明确提供了完整的代码仓库链接(https://github.com/facebookresearch/algonauts-2025)。
- 详细列出了所有使用的预训练模型(及其许可证)、关键软件包和数据集。
- 超参数配置(表3)、训练细节(优化器、调度、SWA、集成策略)描述清晰。
- 这极大地降低了复现门槛,是重要的贡献。