📄 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding

#Transformer

🔥 8.2/10 | 前50% | #Transformer | #Transformer | arxiv

学术质量 5.5/7 | 影响力 1/2 | 可复现性 1.7/2 | 置信度 高

👥 作者与机构

Abdulkadir Gocke, Badr AlKhamissi, Martin Schrimpf,均来自EPFL的NeuroAI Lab。

💡 毒舌点评

论文试图解决一个有价值的问题:如何利用新兴的全能基础模型更有效地编码全脑fMRI响应。MIRAGE框架在概念上是合理的,并且在Algonauts 2025挑战赛中取得了SOTA成绩,这是值得肯定的。然而,审稿人必须指出其局限性。最核心的弱点在于验证数据集极其有限(仅4名受试者),这严重削弱了所有统计结论的可靠性和模型的泛化性声称。尽管作者在讨论中承认了这一点,但这并非“局限性”,而是一个根本性的实验设计缺陷,限制了该工作的影响力范围。此外,将一个超大参数量(30B)的冻结模型作为特征提取器,虽然性能卓越,但其巨大的计算和存储成本(每次特征提取需约700 GPU小时)使其难以被更广泛的社区采纳和复现,这与论文声称的“可复现性”目标背道而驰。论文将核心创新点之一归结为“可解释性”,但提供的注意力权重分析仅停留在模型层面,而非更符合科学假设的皮层层级,这种“解释性”的深度有限。

📌 核心摘要

本文提出了MIRAGE,一个用于从自然视听刺激预测全脑fMRI响应的自适应多模态门控编码框架。该框架使用一个冻结的多模态基础模型(Qwen3-Omni)提取特征,并通过每个模态独立的、基于可学习查询的跨注意力层聚合模块,自适应地融合不同网络层的信息。核心发现是:(1)在多个架构层级和骨干网络上,来自同一多模态模型的原生融合特征,始终优于从独立单模态模型提取特征再进行后融合的策略;(2)学习到的注意力权重具有可解释性,揭示了不同模态对骨干网络层深度的偏好;(3)在Algonauts 2025挑战赛的分布外基准上,MIRAGE取得了最佳成绩(单模型r=0.217,集成模型r=0.227)。论文结论认为,将多模态融合作为预训练模型的原生特性,并通过自适应层聚合进行利用,是构建通用、可解释且准确的全脑编码模型的有效路径。

🔗 开源详情

  • 代码:https://github.com/epflneuroailab/mirage
  • 模型权重:https://huggingface.co/epfl-neuroai/mirage
  • 数据集:未直接提供数据集下载链接。数据为Algonauts 2025挑战赛数据,源自Courtois NeuroMod项目。训练集和验证集通过公开发布获取;测试集需通过官方Codabench评估平台访问。许可证:Courtois NeuroMod数据集采用CC-BY-SA 4.0协议,Algonauts 2025挑战赛数据遵循其特定衍生协议。
  • 演示:https://mirage-brain.epfl.ch
  • 复现材料:论文附录(A.1-A.8节)提供了极其详细的训练配置、超参数、优化器设置、计算资源要求和集成方法。附录B详细报告了关键超参数(交叉注意力查询数量)的消融实验结果。
  • 论文中引用的开源项目:
    1. Qwen3-Omni-30B-A3B-Thinking (Apache-2.0)
    2. Qwen3-Omni-30B-A3B-Instruct (Apache-2.0)
    3. Qwen2.5-Omni-7B (Apache-2.0)
    4. Llama-3.2-3B (Llama 3.2 Community License)
    5. Wav2Vec-BERT-2.0 (MIT)
    6. V-JEPA 2 (CC-BY-NC 4.0)
    7. Schaefer 1000-parcel atlas (MIT)
    8. Yeo–Krienen 7 networks (通过FreeSurfer获取,Open non-commercial research use)
    9. PyTorch (BSD-3-Clause)
    10. Python (PSF License)
    11. HuggingFace Transformers (Apache-2.0)

🏗️ 方法概述和架构

MIRAGE的架构可分为四个核心阶段,详细如下:

  1. 冻结的多模态特征提取:使用冻结的Qwen3-Omni-30B-A3B-Thinking模型作为刺激特征编码器。对于输入的视频、音频和文本转录片段,该模型在其语言模块内部进行模态间交互,产生三种“原生融合”后的特征流:视觉、听觉和文本。每个特征流 \(H_i^m \in \mathbb{R}^{L_m \times T_i \times d_m}\) 保留了网络全部 \(L_m=48\) 层的隐藏状态,其中 \(T_i\) 是时间步数,\(d_m\) 是隐藏维度。这使得后续模块可以在模型的所有深度进行信息选择。
  2. 自适应层聚合:这是MIRAGE的核心创新组件。对于每个模态 \(m\),设有一个独立的跨注意力池化器。该池化器包含 \(n_q=24\) 个可学习的查询向量 \(Q^{(m)} \in \mathbb{R}^{n_q \times d_m}\)。在每个时间步 \(t\),每个查询向量对来自当前模态的整个层栈 \(H^m_{:,t,:}\) 进行跨注意力计算,生成一个聚合后的表示。其注意力权重 \(\pi^{m,q}_{t,\ell}\) 的计算公式为: \[\pi^{m,q}_{t,\ell} = \mathrm{softmax}_\ell \left( \frac{(Q_q^{(m)})^\top K^m_{\ell,t}}{\sqrt{d_m/h}} \right)\] 其中 \(K^m, V^m\) 是 \(H^m\) 的线性投影,\(h=4\) 是注意力头数。来自所有 \(n_q\) 个查询的输出被拼接,形成该模态在时间步 \(t\) 的最终表示 \(a_t^m \in \mathbb{R}^{n_q d_m}\)。这种设计允许不同的查询专注于不同的层深度组合,实现了比单一层加权平均更灵活、更丰富的层融合。
  3. 模态融合与大脑编码器:三个模态各自的聚合表示先通过线性投影映射到一个公共空间,然后沿隐藏维度拼接,形成融合序列 \(u_{1:T}\)。该序列被输入到一个基于Transformer的大脑编码器。该编码器沿时间轴工作,包含8层、8头、隐藏维度 \(D=3072\) 的Transformer块,使用旋转位置编码(RoPE)和可学习的绝对时间位置编码。其输出是经过时间上下文化处理的特征 \(r_{1:T}\)。
  4. 主体特定读出:经过共享的编码器后,每个受试者 \(s\) 有一个独立的线性层(Subject Layer),将 \(r_{1:T}\) 映射到1000个大脑皮层分区(parcels)的预测响应。最后,通过自适应平均池化将时间维度从 \(T\) 降采样到目标fMRI采样点 \(K=100\)。训练时采用模态丢弃(概率 \(p=0.3\))进行正则化。整个模型以预测fMRI与真实fMRI之间的均方误差(MSE)作为损失函数端到端训练,只有层聚合模块、投影层、编码器和主体读出层的参数被更新。
  5. 集成:最终提交使用15个模型的集成,通过基于验证集性能的softmax加权平均完成。

图1

图2

💡 核心创新点

  1. 框架设计:提出了MIRAGE框架,首次将全能基础模型作为冻结的特征提取器,结合自适应的、基于查询的跨注意力层聚合机制,用于全脑fMRI编码。
  2. 原生融合的优越性:通过严谨的控制实验,在多个架构层级(线性回归、带学习编码器的模型)和多个骨干网络(7B, 30B-Instruct, 30B-Thinking)上系统性地证明了,来自单一多模态模型的原生融合特征,在预测脑响应方面始终优于从独立单模态模型提取特征再进行后融合的策略。
  3. 可解释的层聚合:引入的可学习跨注意力层聚合模块不仅提升了性能,其学习到的注意力权重还提供了直接的可解释性,揭示了不同感官模态对骨干网络层深度的不同偏好(例如,视觉信息偏好中间层,文本信息更广泛地利用中后层)。
  4. SOTA性能:在Algonauts 2025挑战赛的分布外(OOD)基准上取得了最佳结果(单模型 \(r=0.217\),集成模型 \(r=0.227\)),并展示了其在分布偏移下的鲁棒性优势。

📊 实验结果

论文在CNeuroMod数据集(Algonauts 2025挑战赛)上进行了全面评估,主要结果总结如下:

核心性能对比(Table 1)

模型验证集 (Friends s06)测试集 (Friends s07)OODOOD - Sub-01OOD - Sub-02OOD - Sub-03OOD - Sub-05
Linear (Post-hoc Fusion)0.2110.2040.1040.1150.1030.1110.087
Linear (Native Fusion)0.2270.2230.1340.1520.1310.1410.112
TRIBE v1 [11] (单模型)0.3030.1960.2210.1910.2140.157
Brain Encoder (Post-hoc Fusion)0.2920.2820.1740.1920.1710.1930.141
Brain Encoder (Native Fusion)0.3010.2910.1950.2120.1940.2130.162
MIRAGE (单模型)0.3190.3100.2170.2440.2100.2350.179
MedARC [46] (集成)0.2880.2090.2300.2000.2300.174
TRIBE v1 [11] (集成)0.3200.2150.2380.2100.2380.172
MIRAGE (集成)0.3350.3230.2270.2530.2210.2460.189

关键结论:

  1. 原生融合 vs. 后融合:在相同架构下,原生融合特征始终优于后融合特征。例如,在线性回归级别,OOD性能从0.104提升至0.134;在带有学习编码器的模型级别,OOD性能从0.174提升至0.195。
  2. 架构复杂度与性能:从线性回归到学习编码器再到MIRAGE(加入自适应层聚合),性能在所有数据集上稳步提升。
  3. 分布外鲁棒性:MIRAGE在OOD测试集上的性能衰减(约30%)小于基线模型(约40%),表明其学习到的特征更具泛化性。
  4. 骨干网络消融:在多个Qwen-Omni骨干网络上,原生融合均优于后融合。Qwen3-Omni-30B-Thinking表现最佳。
  5. 模态贡献:消融实验表明视觉、听觉和文本模态对全脑预测均有互补性贡献,且不同模态在皮层上的主导区域与已知的功能分区相符(视觉在枕颞区,听觉在颞上区,文本在颞-额语言网络)。
  6. 组件贡献:通过探针分析,大脑编码器(时间建模)贡献了最大的性能提升,其次是跨注意力层聚合模块和主体特定读出层。

图3

图4

🔬 细节详述

  1. 数据与任务:使用Algonauts 2025挑战赛数据,源自Courtois NeuroMod项目。数据为4名受试者观看电视剧《老友记》和Movie10集时的fMRI。任务是预测整个大脑皮层(划分为1000个分区)在观看视频时的BOLD信号时间序列。评估指标为皮尔逊相关系数 \(r\)。
  2. 特征提取细节:Qwen3-Omni的“原生融合”特征是在其内部,视觉、音频和文本标记经过跨模态交互后,从语言模块的输出中提取的。这与“塔式”提取(各模态独立通过各自的塔,无交互)形成对比。所有特征在提取时均保留了完整的层深度,并缓存为float16格式。
  3. 层聚合消融实验(Appendix B):论文对跨注意力池化器的查询数量 \(n_q\) 进行了消融研究(\(n_q \in \{1,2,...,32\}\))。结果显示,\(n_q=1\) 时性能明显较差且不稳定;随着 \(n_q\) 增加,性能单调提升,但收益递减。\(n_q=4\) 已能获得大部分收益(约占总增益的55%),\(n_q=12\) 后趋于饱和。最终选择 \(n_q=24\) 是在性能平坦区的工程权衡。
  4. 注意力权重分析:论文提供了详细的模型级层偏好分析(Figure 5及Appendix C)。通过可视化跨注意力权重,发现:视觉模态的注意力高度集中在约第25-30层;文本模态分布更广,在约25-30层和35-40层有两个峰值;音频模态最为分散,在较宽的中间层范围都有显著权重。早期层(0-10)的权重普遍很低。附录C.1进一步展示了这些模式在不同注意力头之间得以保持,证实其并非平均化的假象。
  5. 计算成本:论文明确指出,特征提取计算量大:提取一个Qwen-Omni模型在全部训练数据上的特征需要约700 GPU小时。训练本身在单个A100或GH200上,每个15epoch的运行约需4小时。

⚖️ 评分理由

  1. 创新性 (2.5/3):将全能基础模型与自适应跨注意力层聚合结合用于脑编码是一个新颖的视角。核心实验(原生融合 vs. 后融合)设计严谨,结论有说服力。然而,具体到神经科学领域的创新性,更多是技术组合与验证,而非提出全新的神经计算原理。
  2. 技术严谨性 (1.2/1.5):实验设计较好,有充分的消融实验(骨干网络、融合方式、查询数量)。但验证数据集仅4名受试者,这是技术严谨性上的重大缺陷,严重限制了统计效力。公式和模型细节描述清晰。
  3. 实验充分性 (1.0/1.5):在给定的数据集上做到了SOTA,对比基线全面。但同样受限于数据规模,无法验证模型在更广泛人群中的泛化性。所有实验仅在CNeuroMod数据集上进行,缺乏跨数据集验证。
  4. 清晰度 (0.8/1):论文写作清晰,架构图(Figure 1)有效地传达了框架。方法描述详细,关键参数在附录中列出。
  5. 影响力 (1.0/2):对计算神经科学和AI脑编码领域有明确影响,提出了一个新基准和强方法。但因其对大型计算资源和特定挑战赛数据的依赖,其方法能否被广泛采纳存疑。对核心语音/音乐/音频领域的直接技术贡献有限,更多是作为多模态应用的一个案例。
  6. 开源 (1.3/1.5):开源了代码和模型权重,有利于复现。数据集访问需通过挑战赛平台,但提供了详细许可证信息。复现材料(附录)非常详尽。
  7. 可复现性 (0.4/0.5):尽管开源,但巨大的特征提取成本(700 GPU小时)和对特定30B模型的依赖,使得从头复现所有实验对大多数研究者来说几乎不可能,这大大降低了实际的可复现性。

🚨 局限与问题

  1. 样本量危机:4名受试者的结论是否具有普遍性,是本文最致命的弱点。所有统计显著性和泛化性声称都建立在这个极小的样本上。
  2. 骨干网络依赖性:原生融合的优势仅在Qwen-Omni系列模型内部验证。结论能否推广到其他架构的多模态模型(如GPT-4o, Gemini等)完全未知。
  3. 计算与存储开销:为了支持自适应层聚合,需要缓存骨干网络所有层的特征,导致特征存储空间和训练时数据加载成本巨大。这与追求高效、易用的编码模型目标相悖。
  4. 可解释性的深度:论文声称的“可解释性”仅限于模型层面——哪些层被聚合模块选中。但这并未直接回答神经科学更关心的问题:这些层特征如何映射到具体的皮层功能区域?论文承认这是未来工作,但现有分析的深度有限。
  5. 评估范围单一:所有评估仅基于皮尔逊相关系数这一指标,且仅在一个挑战赛数据集上。缺乏对其他神经数据指标(如RSA)、其他物种数据或行为相关性的验证。
  6. 结论是否过强:论文结论倾向于将“原生融合”提升为“通用且可解释”的方法。然而,其验证仅限于一个特定模型家族和一个特定数据集,这样的宣称可能过于宽泛。

📷 论文图片

图5


← 返回 2026-05-30 语音/音乐/音频论文速递