MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding
📄 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding #Transformer 🔥 8.2/10 | 前50% | #Transformer | #Transformer | arxiv 学术质量 5.5/7 | 影响力 1/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 Abdulkadir Gocke, Badr AlKhamissi, Martin Schrimpf,均来自EPFL的NeuroAI Lab。 💡 毒舌点评 论文试图解决一个有价值的问题:如何利用新兴的全能基础模型更有效地编码全脑fMRI响应。MIRAGE框架在概念上是合理的,并且在Algonauts 2025挑战赛中取得了SOTA成绩,这是值得肯定的。然而,审稿人必须指出其局限性。最核心的弱点在于验证数据集极其有限(仅4名受试者),这严重削弱了所有统计结论的可靠性和模型的泛化性声称。尽管作者在讨论中承认了这一点,但这并非“局限性”,而是一个根本性的实验设计缺陷,限制了该工作的影响力范围。此外,将一个超大参数量(30B)的冻结模型作为特征提取器,虽然性能卓越,但其巨大的计算和存储成本(每次特征提取需约700 GPU小时)使其难以被更广泛的社区采纳和复现,这与论文声称的“可复现性”目标背道而驰。论文将核心创新点之一归结为“可解释性”,但提供的注意力权重分析仅停留在模型层面,而非更符合科学假设的皮层层级,这种“解释性”的深度有限。 📌 核心摘要 本文提出了MIRAGE,一个用于从自然视听刺激预测全脑fMRI响应的自适应多模态门控编码框架。该框架使用一个冻结的多模态基础模型(Qwen3-Omni)提取特征,并通过每个模态独立的、基于可学习查询的跨注意力层聚合模块,自适应地融合不同网络层的信息。核心发现是:(1)在多个架构层级和骨干网络上,来自同一多模态模型的原生融合特征,始终优于从独立单模态模型提取特征再进行后融合的策略;(2)学习到的注意力权重具有可解释性,揭示了不同模态对骨干网络层深度的偏好;(3)在Algonauts 2025挑战赛的分布外基准上,MIRAGE取得了最佳成绩(单模型r=0.217,集成模型r=0.227)。论文结论认为,将多模态融合作为预训练模型的原生特性,并通过自适应层聚合进行利用,是构建通用、可解释且准确的全脑编码模型的有效路径。 🔗 开源详情 代码:https://github.com/epflneuroailab/mirage 模型权重:https://huggingface.co/epfl-neuroai/mirage 数据集:未直接提供数据集下载链接。数据为Algonauts 2025挑战赛数据,源自Courtois NeuroMod项目。训练集和验证集通过公开发布获取;测试集需通过官方Codabench评估平台访问。许可证:Courtois NeuroMod数据集采用CC-BY-SA 4.0协议,Algonauts 2025挑战赛数据遵循其特定衍生协议。 演示:https://mirage-brain.epfl.ch 复现材料:论文附录(A.1-A.8节)提供了极其详细的训练配置、超参数、优化器设置、计算资源要求和集成方法。附录B详细报告了关键超参数(交叉注意力查询数量)的消融实验结果。 论文中引用的开源项目: Qwen3-Omni-30B-A3B-Thinking (Apache-2.0) Qwen3-Omni-30B-A3B-Instruct (Apache-2.0) Qwen2.5-Omni-7B (Apache-2.0) Llama-3.2-3B (Llama 3.2 Community License) Wav2Vec-BERT-2.0 (MIT) V-JEPA 2 (CC-BY-NC 4.0) Schaefer 1000-parcel atlas (MIT) Yeo–Krienen 7 networks (通过FreeSurfer获取,Open non-commercial research use) PyTorch (BSD-3-Clause) Python (PSF License) HuggingFace Transformers (Apache-2.0) 🏗️ 方法概述和架构 MIRAGE的架构可分为四个核心阶段,详细如下: ...