ICLR 2026 - 脑编码 论文列表

ICLR 2026 - 脑编码 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response 9.5分 前10% 📋 论文详情 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 👥 作者与机构 第一作者:Stéphane d‘Ascoli(Meta AI) 通讯作者:未说明 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI) 💡 毒舌点评 亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。 ...

2026-05-04 · 更新于 2026-05-19 · 1 min · 97 words

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #预训练 #Transformer #脑编码 #跨模态 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Stéphane d‘Ascoli(Meta AI) 通讯作者:未说明 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI) 💡 毒舌点评 亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/facebookresearch/algonauts-2025。 模型权重:论文中未提及是否公开TRIBE模型或特征提取模型的权重。 数据集:使用了公开的Courtois NeuroMod数据集(CC0许可),并说明为Algonauts 2025竞赛选择了4名被试的子集。 Demo:论文中未提及在线演示。 复现材料:提供了极其详尽的复现信息,包括完整的超参数表(表3)、数据处理流程、评估指标定义、训练细节(优化器、学习率调度、SWA、模态丢弃等),以及硬件规格。 论文中引用的开源项目:明确列出了使用的开源模型和工具,包括:Llama 3.2(Meta)、Wav2Vec-Bert 2.0(Hugging Face)、V-JEPA 2(Meta, Apache协议)、x-transformers包(MIT协议)、nilearn(BSD协议)、PyTorch。 📌 核心摘要 要解决的问题:传统神经科学研究局限于单模态、单脑区的碎片化模型,而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制,阻碍了构建统一的全脑认知模型。 方法核心:提出TRIBE,一种深度神经网络,它将文本(Llama 3.2)、音频(Wav2Vec-Bert)和视频(V-JEPA 2)基础模型的预训练表征作为输入,通过一个Transformer编码器来建模其时间动态和跨模态整合,最终预测全脑的fMRI反应。 新在哪里:与之前工作相比,TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射,并允许在多个被试的数据上联合训练一个共享模型。 主要实验结果:TRIBE在Algonauts 2025脑编码竞赛中获得第一名(267个团队),平均Pearson相关系数为0.2146,显著领先第二名(见表1)。消融实验表明,多模态模型(0.31)显著优于最佳单模态模型(视频0.25),且这种优势在前额叶、顶叶等高级联合皮层最为明显(见图4)。模型能够预测所有1000个脑区,并在多种高度分布外的电影上展现出鲁棒性(见表2)。 实际意义:为神经科学提供了一个统一的建模框架,使得从多模态自然刺激预测全脑活动成为可能,有望推动对知觉、理解等认知过程的整体性研究,并为“计算机实验”提供新工具。 主要局限性:当前模型基于粗粒度的脑区分割(1000个区域),损失了精细的空间信息;仅使用了fMRI数据,无法捕捉快速的神经电活动;目前仅在4名被试上进行训练和验证。 🏗️ 模型架构 TRIBE的整体架构旨在将三种模态的刺激信息融合,并预测全脑的BOLD响应。其流程可概括为:特征提取 -> 多模态融合 -> 时序建模 -> 全脑预测。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 348 words

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理 ✅ 7.5/10 | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Stéphane d‘Ascoli(Meta AI) 通讯作者:未明确说明(根据邮箱格式,所有作者邮箱均为个人邮箱,无明确标注通讯作者) 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI) 💡 毒舌点评 这篇论文在Algonauts竞赛中大获全胜,其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点,将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而,对于一篇旨在“通向整合认知模型”的工作,其核心Transformer编码器的细节(如注意力机制如何具体捕捉跨模态和跨时间信息)描述过于简略,宛如一个黑箱,这与论文宣称的“非线性”优势相称却不够透明。 🔗 开源详情 代码:是。论文提供了代码仓库链接:https://github.com/facebookresearch/algonauts-2025。 模型权重:未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开,仅提到了所使用的预训练基础模型(Llama, Wav2Vec-Bert, V-JEPA 2)的来源和许可证。 数据集:未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道(CC0许可证),但论文未提供直接下载链接。 Demo:未提及。 复现材料:是。论文提供了详细的训练策略、超参数表格(表3)、硬件配置和模型架构描述,结合开源代码,复现细节较为充分。 论文中引用的开源项目: 预训练模型:Llama-3.2-3B, Wav2Vec-Bert-2.0, V-JEPA 2。 软件库:x-transformers, nilearn, PyTorch。 数据集:Courtois NeuroMod。 论文中未提及开源计划:未提及模型权重的开源计划,未提及数据集的直接下载方式。 📌 核心摘要 这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题,致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激(视频)反应的通用模型。其核心方法是TRIBE模型,它分别从预训练的视频、音频和文本大模型中提取动态特征,并通过一个Transformer编码器融合这些特征,最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比,TRIBE的新颖之处在于它是首个同时实现了非线性融合(通过Transformer)、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中,TRIBE取得了第一名(平均编码分数0.2146),显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层(如前额叶、顶枕颞叶皮层)的显著增益,以及Transformer和多被试训练的关键作用。该工作表明,多模态信息整合对于准确预测全脑活动至关重要,为构建整合性的人脑表征模型铺平了道路。其主要局限性在于:1) 在1000个脑区的粗粒度上建模,空间分辨率有限;2) 仅处理fMRI数据,缺乏更精确的时间分辨率;3) 仅基于4名被试的数据训练,泛化到新被试的能力尚未验证。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 341 words