📄 Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model
#多模态模型 #正则化微调 #数据增强
8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5
🔥 8.2/10 | 前25% | #多模态模型 | #数据增强 | #正则化微调 | arxiv
👥 作者与机构
作者:Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf 机构:NeuroAI Lab, EPFL(洛桑联邦理工学院) *共同一作
💡 毒舌点评
这篇工作试图在多模态模型上复现并发现人脑的功能组织,雄心勃勃,但其核心贡献的“新颖性”需要更严格的审视。将空间平滑性约束应用于单一连续皮层平面的概念,在单模态拓扑模型中已有先例,本文的“多模态”和“跨阶段”整合是其主要扩展点。然而,这种扩展更多是工程上的组合,而非概念上的飞跃。方法的严谨性依赖于一系列精心设计的实验和对照,但部分关键对照(如更强大的非拓扑基线)的缺失削弱了结论的强度。论文的写作和可视化非常出色,逻辑清晰,实验结果引人注目,尤其是发现新网络并进行人体验证的闭环。最大的软肋在于对“新发现”网络的验证力度不足,仅依赖于单一数据集和初步的fMRI激活,缺乏因果干预,这在顶会审稿中会被视为一个显著的局限。对于语音/音频领域的研究者而言,本文提供的是一种新颖的神经AI建模范式,其直接技术迁移价值有限,但其“模型引导假设生成与验证”的研究思路具有启发意义。
📌 核心摘要
本文提出了Topo-Omni,一个将视觉、听觉和语言/认知处理模块映射到单一连续二维“皮层平面”上的多模态拓扑模型。该模型通过微调预训练基础模型(Qwen2.5-Omni-3B),并在训练中引入空间平滑性损失来诱导拓扑结构。主要贡献包括:1)在单一平面上自发形成了与人类大脑功能选择性区域(如FFA、PPA、语言网络)一致的空间聚类;2)通过因果干预实验(驱动/抑制特定集群)证明了这些模型集群的功能必要性与充分性;3)利用模型内部表示设计了一套数据驱动的算法,发现了两个新的候选功能网络(动物、自然景观),并在人类fMRI数据(Spacetop数据集)中进行了初步验证。论文同时证明,施加拓扑约束并未损害模型的原始任务性能或与大脑活动的对齐度。
🔗 开源详情
- 代码:https://github.com/epflneuroailab/topo-omni
- 模型权重:https://huggingface.co/epfl-neuroai/topo-omni
- 数据集:
- EMFL 数据集:论文中提及使用了 Marvi et al. (2025) 的公开数据子集,但未提供具体存储库链接。
- Spacetop 数据集:Jung et al. (2025)。论文中提及分析了该数据集的公开数据,但未提供具体存储库链接。
- Natural Scenes Dataset (NSD):Allen et al. (2021)。论文中提及使用了该数据集,但未提供具体存储库链接。
- 声音区域 fMRI 数据集:Pernet et al. (2015)。论文中提及数据来自 Edinburgh DataShare 仓库,但未提供具体链接。
- 模型训练数据集:来自 Koala-36M (Wang et al., 2024) 的 4,364 个视频。论文中未提供该子集的具体获取链接。
- Demo:论文中未提及。
- 复现材料:论文中提及开源了分析代码和模型权重,但未单独提供训练配置文件或完整复现指南。主要的复现信息包含在代码仓库和论文附录的方法部分中。
- 论文中引用的开源项目:
- fMRIPrep:用于 fMRI 数据预处理 (Esteban et al., 2019)。链接:https://fmriprep.org/
- FreeSurfer:用于皮层表面重建 (Fischl, 2012)。链接:https://surfer.nmr.mgh.harvard.edu/
- Nilearn:用于神经影像数据分析 (Abraham et al., 2014)。链接:https://nilearn.github.io/
- Qwen2.5-Omni-3B:作为基础模型 (Xu et al., 2025a)。链接:https://huggingface.co/Qwen/Qwen2.5-Omni-3B
- omni-embed-nemotron-3b:用于生成视频片段的语义嵌入 (Xu et al., 2025b)。论文中未提供具体 HuggingFace 链接。
- Koala-36M:用于构建训练数据的视频数据集 (Wang et al., 2024)。论文中未提供具体链接。
🏗️ 方法概述和架构
Topo-Omni 的核心方法是在预训练的多模态基础模型上,通过引入一个基于空间平滑性的正则化损失来微调,从而诱导模型内部表示形成类似大脑皮层的功能特异性空间组织。
基础模型与架构改造:
- 基座模型:采用预训练的
Qwen2.5-Omni-3B,其包含三个主要组件:视觉编码器(ViT架构)、音频编码器(Transformer架构)和语言/认知模块(称为“Thinker”的解码器Transformer)。 - 统一皮层平面构建:为每个Transformer层的中间激活引入一个可训练的线性投影层
\(W_l\),将每个token的激活投影到一个固定大小(尺寸等于隐藏层维度\(d\))的二维平面上。初始化采用近恒等映射\(W_l = I_d + E\)(\(E_{ij} \sim \mathcal{N}(0, 10^{-6})\))以保留预训练表示。投影后的激活通过伪逆\(W_l^+\)映射回残差流。然后,将同一组件内不同层的二维平面沿一个空间维度拼接,形成该组件的连续平面。最后,将视觉、音频和语言/认知模块的平面按特定几何位置(视觉与音频平面并排,语言平面置于上方)组合成一个全局统一的二维皮层平面。 - 时间对齐:将平面激活在时间维度上以2秒为窗口进行平均,以匹配fMRI数据的重复时间(TR)。
- 基座模型:采用预训练的
训练目标与策略:
- 联合损失函数:模型的总损失为
\(\mathcal{L} = \mathcal{L}_{\text{task}} + \alpha \mathcal{L}_{\text{spatial}}\),其中\(\alpha\)设置为20。 - 任务损失
\(\mathcal{L}_{\text{task}}\):采用自蒸馏的监督微调(SFT)范式。使用未经修改的Qwen2.5-Omni-3B基准模型为训练视频生成描述性标题,然后计算标准交叉熵损失,使Topo-Omni模仿基准模型的输出能力,从而锚定模型功能。 - 空间平滑损失
\(\mathcal{L}_{\text{spatial}}\):旨在鼓励皮层平面上邻近单元具有相似的响应模式。具体计算时,在统一平面上随机采样\(K\)(设为100)个局部邻域\(\mathcal{N}_k\)。对于每个邻域内的单元对,计算其功能相似性(Pearson相关系数\(r_{ij}\))和空间邻近性(基于\(\ell_{\infty}\)距离的单调递减函数\(d_{ij} = 1/(1 + \|\mathbf{s}_i - \mathbf{s}_j\|_{\infty})\))。损失定义为两者的负相关性:\(\mathcal{L}_{\text{spatial}}(\mathcal{N}_k) = \frac{1}{2}(1 - \text{corr}(\{r_{ij}\}, \{d_{ij}\}))\),并在所有邻域上取平均。由于采样均匀,该损失可跨模态边界施加,促进跨模态的功能共定位。
- 联合损失函数:模型的总损失为
训练数据:
- 从
Koala-36M数据集中采样了4,364个视频构成训练集。
- 从
验证与评估流程:
- 功能局部化:采用交叉验证方式,将人类fMRI功能局部化范式(如EMFL数据集)应用于模型,识别视觉、听觉和高级认知区域。
- 脑对齐度量:在自然场景数据集(NSD)上,使用线性编码模型评估模型单元预测人脑fMRI活动的能力。对于每个模型,先根据局部化响应选择出最匹配人类功能ROI的前10%模型单元,再训练线性回归器进行预测。
- 因果干预:通过计算对比激活向量(特定类别刺激平均激活减去其他类别平均激活),在测试时向选定集群单元的激活中添加或减去该向量,以驱动或抑制模型对该类别的感知。
- 新集群发现:结合视频片段的语义嵌入(来自
omni-embed-nemotron-3b)进行层次聚类,并利用Topo-Omni的皮层平面激活图作为聚类的评分依据,通过自顶向下的树遍历进行早期停止,得到一组功能一致的刺激簇。随后在人类Spacetop数据集上验证这些模型预测的对比。


💡 核心创新点
- 首个跨模态、跨处理阶段的连续拓扑模型:与以往单模态或对每一层单独施加拓扑约束的模型不同,Topo-Omni将视觉、听觉和语言/认知模块的所有处理阶段映射到单一连续的二维平面上,使得空间约束可以跨模态和跨层次发挥作用。
- 利用预训练基础模型构建拓扑模型:创新性地采用对强大预训练模型进行微调的方式构建拓扑结构,而非从头训练,使模型兼具拓扑组织能力和强大的多模态能力。
- 模型引导的脑功能网络发现闭环:开发了一套基于模型内部表示的、数据驱动的算法来发现新的候选功能网络,并立即在人类fMRI数据中进行测试验证,展示了“模型假设生成-实验验证”的新范式。
📊 实验结果
实验结果在三个主要方面验证了模型:
重现已知大脑功能组织:
- 视觉系统:模型的视觉编码器形成了对人脸(FFA,
d'=0.36, 响应曲线与人脑FFA相关r=0.88)、场景(PPA,d'=0.21)、物体(LOC,d'=0.14,r=0.89)和文字(VWFA,d'=0.19)选择性的空间集群。还发展出了极角和离心率拓扑图。 - 听觉系统:音频编码器形成了对语音(与人脑STG响应相关
r=0.69)和人声选择性的集群,并具备音调拓扑组织。 - 高级认知网络:语言/认知模块形成了对语言(
d'=1.39)、多重需求(d'=0.54)和心理理论(d'=0.15)任务选择性的网络。
- 视觉系统:模型的视觉编码器形成了对人脸(FFA,
保持脑对齐与任务性能:
- 在NSD数据集上,Topo-Omni在12个视觉功能ROI中的11个上,其线性编码预测性能与非拓扑基线(SFT-Omni,原始Qwen2.5-Omni-3B)没有显著差异(配对
t检验,未校正,p>0.05),唯一有显著差异的OWFA ROI效应量极小(r差值<=0.005)。 - 在OmniBench多模态基准测试中,Topo-Omni取得了最佳的总体准确率(43.78%),在声音事件子任务上表现最好,其他子任务与基线差异不显著(McNemar精确检验,
p>0.05)。
- 在NSD数据集上,Topo-Omni在12个视觉功能ROI中的11个上,其线性编码预测性能与非拓扑基线(SFT-Omni,原始Qwen2.5-Omni-3B)没有显著差异(配对
因果控制与新发现:
- 因果干预:驱动人脸选择性集群单元会导致模型对所有输入的感知偏向人脸;抑制该集群前10%的单元使人脸识别准确率接近零,而对其他类别影响很小,反之亦然,证明了其功能的特异性、必要性和充分性。
- 新网络发现:通过模型引导的聚类发现了对动物(如蛇、鹰)和自然景观(如海滩、山脉)选择性的新网络。在Spacetop fMRI数据中,这些视频片段在人类前额叶皮层引起了显著激活(FDR校正,
q<0.05),为模型预测提供了初步的人体证据。


⚖️ 评分理由
- 创新性 (1.5/2):将拓扑约束从单模态扩展到单一连续多模态平面是明确的创新点,但核心的“空间平滑诱导组织”思想并非首创。利用预训练模型和闭环发现范式增加了新颖性。
- 技术严谨性 (1.2/1.5):方法设计精巧,有详尽的消融(非拓扑基线)和对照实验。然而,部分细节有待澄清:空间损失权重
\(\alpha=20\)的选择依据、自蒸馏目标中具体使用的提示池、以及皮层平面几何组装的细节(如组件平面的相对位置和缩放)未在文中充分说明。 - 实验充分性 (1.5/1.5):实验非常全面,涵盖了多模态、多层次的功能验证、性能对比、因果干预和新发现验证。使用了多个独立的公开数据集。主要不足在于新发现网络的验证仅依赖单一数据集和一种统计阈值。
- 清晰度 (1.5/1.5):论文结构清晰,写作流畅,图表(尤其是图1, 2, 7)极具表现力,很好地传达了复杂概念。
- 影响力 (0.7/2):工作在计算神经科学和AI交叉领域具有重要影响力,为构建“空间化”神经AI模型提供了新平台。然而,其核心贡献在于模型架构和神经科学发现,对语音/音乐/音频信号处理领域的直接技术贡献或启发相对有限。
- 开源 (1.3/1.5):开源了核心模型权重、分析代码,并指向了所用数据集。代码仓库结构清晰。扣分点在于未提供完整的训练配置或复现脚本,且部分数据集(如Spacetop)的具体使用链接未提供。
- 可复现性 (1.0/1.5):开源的模型权重和分析代码使得部分结果(如新发现验证)可复现。但训练过程(需要大量计算资源和特定数据)的完整复现存在一定门槛,因为未提供详细的训练超参数和配置文件。
- 工程/实践价值 (0.5/1):工程贡献在于成功地将拓扑约束整合到现有的大型多模态模型架构中。实践价值在于其作为研究工具,用于生成和检验关于大脑组织的假说。
🚨 局限与问题
- 抽象化的皮层平面:模型平面是对生物大脑的高度抽象,未模拟半球、脑回、脑沟、细胞构筑等解剖结构。因此,模型中的空间对应关系是功能性的,而非精确的解剖对应,这限制了其作为严格大脑模拟器的价值。
- 新发现验证的深度不足:对动物和自然景观网络的验证仅基于fMRI激活,缺乏因果性证据(如TMS或损伤研究)。激活区域位于前额叶,该区域功能复杂,目前的激活结果不足以定义其为“功能选择性区域”。
- 训练数据的局限:训练仅使用约4,500个视频,对于训练如此规模的多模态模型而言可能不足。空间损失在更大规模、更多样化数据下的行为尚不清楚。
- 方法依赖预训练:模型性能严重依赖于强大的预训练基座模型。自蒸馏损失锚定了基座模型的行为,这可能限制了空间损失重新组织表示的自由度。从头训练或使用其他任务目标时能否得到类似组织结构,是一个未解之谜。
- 部分基线对比的缺失:虽然与非拓扑基线和原始模型对比充分,但未与近年来其他先进的拓扑模型(如文本或视觉专用模型)在大脑对齐度上进行横向比较,难以绝对定位其性能水平。
- 空间平滑可能引入的偏差:空间平滑损失可能偏向于产生大块的、连续的选择性区域,这或许能解释为何新发现集中在少数几个大集群上,可能遗漏了更细微或分散的功能组织模式。
- 统计检验的严谨性:部分相关性分析(如PPA, VWFA)仅达到趋势水平(
p接近0.05),在更严格的多重检验校正下可能不显著。新发现的q<0.05在全脑扫描中仍可能产生假阳性。
📷 论文图片
