脑编码 | 语音/音乐/音频论文速递

ICLR 2026 - 脑编码论文列表

ICLR 2026 - 脑编码共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response 9.5分前10% 📋 论文详情 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未说明作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。 ...

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #预训练 #Transformer #脑编码 #跨模态 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未说明作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。模型权重：论文中未提及是否公开TRIBE模型或特征提取模型的权重。数据集：使用了公开的Courtois NeuroMod数据集（CC0许可），并说明为Algonauts 2025竞赛选择了4名被试的子集。 Demo：论文中未提及在线演示。复现材料：提供了极其详尽的复现信息，包括完整的超参数表（表3）、数据处理流程、评估指标定义、训练细节（优化器、学习率调度、SWA、模态丢弃等），以及硬件规格。论文中引用的开源项目：明确列出了使用的开源模型和工具，包括：Llama 3.2（Meta）、Wav2Vec-Bert 2.0（Hugging Face）、V-JEPA 2（Meta， Apache协议）、x-transformers包（MIT协议）、nilearn（BSD协议）、PyTorch。 📌 核心摘要要解决的问题：传统神经科学研究局限于单模态、单脑区的碎片化模型，而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制，阻碍了构建统一的全脑认知模型。方法核心：提出TRIBE，一种深度神经网络，它将文本（Llama 3.2）、音频（Wav2Vec-Bert）和视频（V-JEPA 2）基础模型的预训练表征作为输入，通过一个Transformer编码器来建模其时间动态和跨模态整合，最终预测全脑的fMRI反应。新在哪里：与之前工作相比，TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射，并允许在多个被试的数据上联合训练一个共享模型。主要实验结果：TRIBE在Algonauts 2025脑编码竞赛中获得第一名（267个团队），平均Pearson相关系数为0.2146，显著领先第二名（见表1）。消融实验表明，多模态模型（0.31）显著优于最佳单模态模型（视频0.25），且这种优势在前额叶、顶叶等高级联合皮层最为明显（见图4）。模型能够预测所有1000个脑区，并在多种高度分布外的电影上展现出鲁棒性（见表2）。实际意义：为神经科学提供了一个统一的建模框架，使得从多模态自然刺激预测全脑活动成为可能，有望推动对知觉、理解等认知过程的整体性研究，并为“计算机实验”提供新工具。主要局限性：当前模型基于粗粒度的脑区分割（1000个区域），损失了精细的空间信息；仅使用了fMRI数据，无法捕捉快速的神经电活动；目前仅在4名被试上进行训练和验证。 🏗️ 模型架构 TRIBE的整体架构旨在将三种模态的刺激信息融合，并预测全脑的BOLD响应。其流程可概括为：特征提取 -> 多模态融合 -> 时序建模 -> 全脑预测。 ...

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理 ✅ 7.5/10 | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未明确说明（根据邮箱格式，所有作者邮箱均为个人邮箱，无明确标注通讯作者）作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评这篇论文在Algonauts竞赛中大获全胜，其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点，将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而，对于一篇旨在“通向整合认知模型”的工作，其核心Transformer编码器的细节（如注意力机制如何具体捕捉跨模态和跨时间信息）描述过于简略，宛如一个黑箱，这与论文宣称的“非线性”优势相称却不够透明。 🔗 开源详情代码：是。论文提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。模型权重：未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开，仅提到了所使用的预训练基础模型（Llama, Wav2Vec-Bert, V-JEPA 2）的来源和许可证。数据集：未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道（CC0许可证），但论文未提供直接下载链接。 Demo：未提及。复现材料：是。论文提供了详细的训练策略、超参数表格（表3）、硬件配置和模型架构描述，结合开源代码，复现细节较为充分。论文中引用的开源项目：预训练模型：Llama-3.2-3B， Wav2Vec-Bert-2.0， V-JEPA 2。软件库：x-transformers， nilearn， PyTorch。数据集：Courtois NeuroMod。论文中未提及开源计划：未提及模型权重的开源计划，未提及数据集的直接下载方式。 📌 核心摘要这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题，致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激（视频）反应的通用模型。其核心方法是TRIBE模型，它分别从预训练的视频、音频和文本大模型中提取动态特征，并通过一个Transformer编码器融合这些特征，最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比，TRIBE的新颖之处在于它是首个同时实现了非线性融合（通过Transformer）、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中，TRIBE取得了第一名（平均编码分数0.2146），显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层（如前额叶、顶枕颞叶皮层）的显著增益，以及Transformer和多被试训练的关键作用。该工作表明，多模态信息整合对于准确预测全脑活动至关重要，为构建整合性的人脑表征模型铺平了道路。其主要局限性在于：1) 在1000个脑区的粗粒度上建模，空间分辨率有限；2) 仅处理fMRI数据，缺乏更精确的时间分辨率；3) 仅基于4名被试的数据训练，泛化到新被试的能力尚未验证。 ...