<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>脑编码 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E8%84%91%E7%BC%96%E7%A0%81/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 04 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E8%84%91%E7%BC%96%E7%A0%81/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>ICLR 2026 - 脑编码 论文列表</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-task-018/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-task-018/</guid>
      <description>&lt;h1 id=&#34;iclr-2026---脑编码&#34;&gt;ICLR 2026 - 脑编码&lt;/h1&gt;
&lt;p&gt;共 &lt;strong&gt;1&lt;/strong&gt; 篇论文&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-summary/&#34;&gt;← 返回 ICLR 2026 总览&lt;/a&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;排名&lt;/th&gt;
          &lt;th&gt;论文&lt;/th&gt;
          &lt;th&gt;评分&lt;/th&gt;
          &lt;th&gt;分档&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;🥇&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tribe-trimodal-brain-encoder-for-whole-brain-fmri&#34;&gt;TRIBE: TRImodal Brain Encoder for whole-brain fMRI response &lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;9.5分&lt;/td&gt;
          &lt;td&gt;前10%&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;-论文详情&#34;&gt;📋 论文详情&lt;/h2&gt;
&lt;h3 id=&#34;-tribe-trimodal-brain-encoder-for-whole-brain-fmri-response-prediction&#34;&gt;🥇 &lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tribe-trimodal-brain-encoder-for-whole-brain-fmri&#34;&gt;TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;🔥 &lt;strong&gt;9.5/10&lt;/strong&gt; | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer&lt;/p&gt;
&lt;p&gt;👥 &lt;strong&gt;作者与机构&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Stéphane d‘Ascoli（Meta AI）&lt;/li&gt;
&lt;li&gt;通讯作者：未说明&lt;/li&gt;
&lt;li&gt;作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;💡 &lt;strong&gt;毒舌点评&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="iclr-2026---脑编码">ICLR 2026 - 脑编码</h1>
<p>共 <strong>1</strong> 篇论文</p>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 总览</a></p>
<hr>
<table>
  <thead>
      <tr>
          <th>排名</th>
          <th>论文</th>
          <th>评分</th>
          <th>分档</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>🥇</td>
          <td><a href="/audio-paper-digest-blog/posts/2026-05-04-tribe-trimodal-brain-encoder-for-whole-brain-fmri">TRIBE: TRImodal Brain Encoder for whole-brain fMRI response </a></td>
          <td>9.5分</td>
          <td>前10%</td>
      </tr>
  </tbody>
</table>
<hr>
<h2 id="-论文详情">📋 论文详情</h2>
<h3 id="-tribe-trimodal-brain-encoder-for-whole-brain-fmri-response-prediction">🥇 <a href="/audio-paper-digest-blog/posts/2026-05-04-tribe-trimodal-brain-encoder-for-whole-brain-fmri">TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction</a></h3>
<p>🔥 <strong>9.5/10</strong> | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer</p>
<p>👥 <strong>作者与机构</strong></p>
<ul>
<li>第一作者：Stéphane d‘Ascoli（Meta AI）</li>
<li>通讯作者：未说明</li>
<li>作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI）</li>
</ul>
<p>💡 <strong>毒舌点评</strong></p>
<p>亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。</p>
<p>🔗 <strong>开源详情</strong></p>
<ul>
<li>代码：提供了代码仓库链接：<code>https://github.com/facebookresearch/algonauts-2025</code>。</li>
<li>模型权重：论文中未提及是否公开TRIBE模型或特征提取模型的权重。</li>
<li>数据集：使用了公开的Courtois NeuroMod数据集（CC0许可），并说明为Algonauts 2025竞赛选择了4名被试的子集。</li>
<li>Demo：论文中未提及在线演示。</li>
<li>复现材料：提供了极其详尽的复现信息，包括完整的超参数表（表3）、数据处理流程、评估指标定义、训练细节（优化器、学习率调度、SWA、模态丢弃等），以及硬件规格。</li>
<li>论文中引用的开源项目：明确列出了使用的开源模型和工具，包括：Llama 3.2（Meta）、Wav2Vec-Bert 2.0（Hugging Face）、V-JEPA 2（Meta， Apache协议）、x-transformers包（MIT协议）、nilearn（BSD协议）、PyTorch。</li>
</ul>
<p>📌 <strong>核心摘要</strong></p>
<ol>
<li>要解决的问题：传统神经科学研究局限于单模态、单脑区的碎片化模型，而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制，阻碍了构建统一的全脑认知模型。</li>
<li>方法核心：提出TRIBE，一种深度神经网络，它将文本（Llama 3.2）、音频（Wav2Vec-Bert）和视频（V-JEPA 2）基础模型的预训练表征作为输入，通过一个Transformer编码器来建模其时间动态和跨模态整合，最终预测全脑的fMRI反应。</li>
<li>新在哪里：与之前工作相比，TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射，并允许在多个被试的数据上联合训练一个共享模型。</li>
<li>主要实验结果：TRIBE在Algonauts 2025脑编码竞赛中获得第一名（267个团队），平均Pearson相关系数为0.2146，显著领先第二名（见表1）。消融实验表明，多模态模型（0.31）显著优于最佳单模态模型（视频0.25），且这种优势在前额叶、顶叶等高级联合皮层最为明显（见图4）。模型能够预测所有1000个脑区，并在多种高度分布外的电影上展现出鲁棒性（见表2）。</li>
<li>实际意义：为神经科学提供了一个统一的建模框架，使得从多模态自然刺激预测全脑活动成为可能，有望推动对知觉、理解等认知过程的整体性研究，并为“计算机实验”提供新工具。</li>
<li>主要局限性：当前模型基于粗粒度的脑区分割（1000个区域），损失了精细的空间信息；仅使用了fMRI数据，无法捕捉快速的神经电活动；目前仅在4名被试上进行训练和验证。</li>
</ol>
<hr>
]]></content:encoded>
      <category>脑编码</category>
    </item>
    <item>
      <title>TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tribe-trimodal-brain-encoder-for-whole-brain-fmri/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tribe-trimodal-brain-encoder-for-whole-brain-fmri/</guid>
      <description>&lt;h1 id=&#34;-tribe-trimodal-brain-encoder-for-whole-brain-fmri-response-prediction&#34;&gt;📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction&lt;/h1&gt;
&lt;p&gt;#多模态模型 #预训练 #Transformer #脑编码 #跨模态&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;9.5/10&lt;/strong&gt; | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer&lt;/p&gt;
&lt;p&gt;学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Stéphane d‘Ascoli（Meta AI）&lt;/li&gt;
&lt;li&gt;通讯作者：未说明&lt;/li&gt;
&lt;li&gt;作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。&lt;/p&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码：提供了代码仓库链接：&lt;code&gt;https://github.com/facebookresearch/algonauts-2025&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;模型权重：论文中未提及是否公开TRIBE模型或特征提取模型的权重。&lt;/li&gt;
&lt;li&gt;数据集：使用了公开的Courtois NeuroMod数据集（CC0许可），并说明为Algonauts 2025竞赛选择了4名被试的子集。&lt;/li&gt;
&lt;li&gt;Demo：论文中未提及在线演示。&lt;/li&gt;
&lt;li&gt;复现材料：提供了极其详尽的复现信息，包括完整的超参数表（表3）、数据处理流程、评估指标定义、训练细节（优化器、学习率调度、SWA、模态丢弃等），以及硬件规格。&lt;/li&gt;
&lt;li&gt;论文中引用的开源项目：明确列出了使用的开源模型和工具，包括：Llama 3.2（Meta）、Wav2Vec-Bert 2.0（Hugging Face）、V-JEPA 2（Meta， Apache协议）、x-transformers包（MIT协议）、nilearn（BSD协议）、PyTorch。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;要解决的问题：传统神经科学研究局限于单模态、单脑区的碎片化模型，而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制，阻碍了构建统一的全脑认知模型。&lt;/li&gt;
&lt;li&gt;方法核心：提出TRIBE，一种深度神经网络，它将文本（Llama 3.2）、音频（Wav2Vec-Bert）和视频（V-JEPA 2）基础模型的预训练表征作为输入，通过一个Transformer编码器来建模其时间动态和跨模态整合，最终预测全脑的fMRI反应。&lt;/li&gt;
&lt;li&gt;新在哪里：与之前工作相比，TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射，并允许在多个被试的数据上联合训练一个共享模型。&lt;/li&gt;
&lt;li&gt;主要实验结果：TRIBE在Algonauts 2025脑编码竞赛中获得第一名（267个团队），平均Pearson相关系数为0.2146，显著领先第二名（见表1）。消融实验表明，多模态模型（0.31）显著优于最佳单模态模型（视频0.25），且这种优势在前额叶、顶叶等高级联合皮层最为明显（见图4）。模型能够预测所有1000个脑区，并在多种高度分布外的电影上展现出鲁棒性（见表2）。&lt;/li&gt;
&lt;li&gt;实际意义：为神经科学提供了一个统一的建模框架，使得从多模态自然刺激预测全脑活动成为可能，有望推动对知觉、理解等认知过程的整体性研究，并为“计算机实验”提供新工具。&lt;/li&gt;
&lt;li&gt;主要局限性：当前模型基于粗粒度的脑区分割（1000个区域），损失了精细的空间信息；仅使用了fMRI数据，无法捕捉快速的神经电活动；目前仅在4名被试上进行训练和验证。&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;-模型架构&#34;&gt;🏗️ 模型架构&lt;/h3&gt;
&lt;p&gt;TRIBE的整体架构旨在将三种模态的刺激信息融合，并预测全脑的BOLD响应。其流程可概括为：特征提取 -&amp;gt; 多模态融合 -&amp;gt; 时序建模 -&amp;gt; 全脑预测。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-tribe-trimodal-brain-encoder-for-whole-brain-fmri-response-prediction">📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction</h1>
<p>#多模态模型 #预训练 #Transformer #脑编码 #跨模态</p>
<p>🔥 <strong>9.5/10</strong> | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer</p>
<p>学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Stéphane d‘Ascoli（Meta AI）</li>
<li>通讯作者：未说明</li>
<li>作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI）</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。</p>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：提供了代码仓库链接：<code>https://github.com/facebookresearch/algonauts-2025</code>。</li>
<li>模型权重：论文中未提及是否公开TRIBE模型或特征提取模型的权重。</li>
<li>数据集：使用了公开的Courtois NeuroMod数据集（CC0许可），并说明为Algonauts 2025竞赛选择了4名被试的子集。</li>
<li>Demo：论文中未提及在线演示。</li>
<li>复现材料：提供了极其详尽的复现信息，包括完整的超参数表（表3）、数据处理流程、评估指标定义、训练细节（优化器、学习率调度、SWA、模态丢弃等），以及硬件规格。</li>
<li>论文中引用的开源项目：明确列出了使用的开源模型和工具，包括：Llama 3.2（Meta）、Wav2Vec-Bert 2.0（Hugging Face）、V-JEPA 2（Meta， Apache协议）、x-transformers包（MIT协议）、nilearn（BSD协议）、PyTorch。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li>要解决的问题：传统神经科学研究局限于单模态、单脑区的碎片化模型，而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制，阻碍了构建统一的全脑认知模型。</li>
<li>方法核心：提出TRIBE，一种深度神经网络，它将文本（Llama 3.2）、音频（Wav2Vec-Bert）和视频（V-JEPA 2）基础模型的预训练表征作为输入，通过一个Transformer编码器来建模其时间动态和跨模态整合，最终预测全脑的fMRI反应。</li>
<li>新在哪里：与之前工作相比，TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射，并允许在多个被试的数据上联合训练一个共享模型。</li>
<li>主要实验结果：TRIBE在Algonauts 2025脑编码竞赛中获得第一名（267个团队），平均Pearson相关系数为0.2146，显著领先第二名（见表1）。消融实验表明，多模态模型（0.31）显著优于最佳单模态模型（视频0.25），且这种优势在前额叶、顶叶等高级联合皮层最为明显（见图4）。模型能够预测所有1000个脑区，并在多种高度分布外的电影上展现出鲁棒性（见表2）。</li>
<li>实际意义：为神经科学提供了一个统一的建模框架，使得从多模态自然刺激预测全脑活动成为可能，有望推动对知觉、理解等认知过程的整体性研究，并为“计算机实验”提供新工具。</li>
<li>主要局限性：当前模型基于粗粒度的脑区分割（1000个区域），损失了精细的空间信息；仅使用了fMRI数据，无法捕捉快速的神经电活动；目前仅在4名被试上进行训练和验证。</li>
</ol>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>TRIBE的整体架构旨在将三种模态的刺激信息融合，并预测全脑的BOLD响应。其流程可概括为：特征提取 -&gt; 多模态融合 -&gt; 时序建模 -&gt; 全脑预测。</p>
<p><img alt="TRIBE方法概览图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/biegtqdqmg-1.png"></p>
<p>如图2所示，该模型架构图展示了从多模态输入到预测输出的完整流程。</p>
<ol>
<li>输入：视频剪辑、对应的音频文件和带时间戳的文本转录稿。</li>
<li>单模态特征提取：
<ul>
<li>文本：将每个词及其前1024个词上下文输入Llama-3.2-3B，提取中间层（相对深度0.5-1）的词嵌入，按2Hz时间网格对齐并求和，得到时间序列。</li>
<li>音频：将60秒音频块输入Wav2Vec-Bert-2.0，提取中间层（0.5-1）的隐藏表示，并从50Hz重采样至2Hz。</li>
<li>视频：以2Hz频率，每次输入过去4秒的64帧到V-JEPA 2，并对所有patch token进行空间平均，提取中间层（0.5-1）的特征。</li>
</ul>
</li>
<li>模态内压缩与融合：对每个模态，将其Transformer的中间层特征分成两组（相对深度0.5-0.75和0.75-1.0），各组内对层维度取平均，得到两个时间步长的嵌入。随后将这两个嵌入在维度上拼接，并通过一个线性层映射到共享维度D=1024，再经过层归一化。最后，将三个模态的特征在序列维度上拼接，形成形状为 <code>[3 * N, 1024]</code> 的多模态嵌入序列。</li>
<li>时序建模（Transformer编码器）：为多模态嵌入序列加入可学习的位置编码，然后输入一个8层8头的Transformer编码器。这使模型能够捕捉不同时间步以及不同模态之间的信息交互。</li>
<li>输出：Transformer的输出经过自适应平均池化，将序列压缩回与fMRI TR（1.49秒）对齐的长度（即 <code>N</code> 个时间点）。最后，通过一个主体条件层（为每个被试学习独立的线性投影层），将 <code>N</code> 个时间点的嵌入同时映射到1000维的脑区预测目标上。损失函数为预测值与真实fMRI信号之间的均方误差。</li>
</ol>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>端到端的多模态联合编码：TRIBE直接联合处理来自文本、音频和视频的原始特征，通过一个统一的网络学习模态间的动态整合。之前的模型多为单模态，或对多模态结果仅作简单线性组合，无法学习复杂的跨模态交互，而TRIBE在高级联合皮层（如前额叶）显著超越了最佳单模态模型（图4b）。</li>
<li>非线性的时序动态建模：使用Transformer替代传统的线性映射（如岭回归）或简单的循环网络，来建模刺激特征与大脑响应之间复杂的、非线性的时间对应关系。消融实验显示，移除Transformer会使性能从0.31骤降至0.23（图6a）。</li>
<li>跨主体的联合训练范式：通过引入“主体条件层”，使得一个共享的主体无关模型能够在所有被试的数据上联合训练，从而利用大脑间的共性信息并提高模型泛化能力。训练时每个主体的投影层独立，预测时共享模型主体。联合训练比单独训练每个主体性能提升约0.02（图6a）。</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：使用Courtois NeuroMod数据集，包含6名被试观看大量自然视频（电视剧《老友记》、四部电影）产生的fMRI数据。本工作选取其中4名被试。预处理后，全脑体素信号被映射到MNI152标准空间，并使用Schaefer图谱划分为1000个非重叠皮层区域，每个区域产生一个fMRI时间序列。信号按每个扫描会话（约15分钟）进行z-score标准化。数据划分中，确保相同的视频在所有被试中被保留用于验证，防止数据泄露。</li>
<li>损失函数：使用均方误差（MSE） 作为损失函数，直接最小化预测的BOLD信号与真实信号之间的差异。评估指标为预测信号与真实信号之间的皮尔逊相关系数。</li>
<li>训练策略：
<ul>
<li>优化器：AdamW。</li>
<li>学习率：初始学习率 <code>10^{-4}</code>，在前10%的步数内线性预热，之后遵循余弦衰减调度。</li>
<li>Batch size：16。</li>
<li>训练轮数：最多15轮，并采用早停法（基于验证集皮尔逊分数）。</li>
<li>正则化与泛化：使用随机权重平均（SWA），在验证指标接近平台期后，对每个epoch结束时的模型权重进行平均。训练时引入模态丢弃（Modality Dropout）：以概率p（默认0.2）随机屏蔽每个模态的输入（置零），但确保至少保留一个模态，以鼓励模型不过度依赖单一模态并提升鲁棒性。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li>模型总参数量：980M（可训练部分）。基础特征提取模型：Llama-3.2-3B（3B参数）、Wav2Vec-Bert-2.0（600M参数）、V-JEPA 2（700M参数）。</li>
<li>输入频率 <code>f = 2 Hz</code>，预测窗口长度 <code>N = 100</code> TR（对应约149秒）。</li>
<li>Transformer编码器：8层，8个注意力头，隐藏维度与输入特征一致。</li>
<li>模态特征压缩：每个模态分2层组（相对深度0.5-0.75和0.75-1.0），每组内平均，然后拼接。</li>
<li>集成：训练M=1000个模型进行集成，每个模型使用不同的初始化种子和超参数组合（见表3），最终对每个脑区根据验证集分数对模型进行加权平均（温度0.3）。</li>
</ul>
</li>
<li>训练硬件：特征提取在128个32GB V100 GPU上耗时24小时。TRIBE模型本身的训练在单个32GB V100 GPU上耗时24小时。</li>
<li>推理细节：推理时，模型以滑动窗口方式处理输入的连续时间序列，并为每个TR预测一个1000维的响应向量。由于Transformer和主体条件层的设计，整个预测窗口（N个TR）可以同时输出，这使得推理过程非常高效。</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<p>TRIBE的评估主要在Algonauts 2025竞赛的两个阶段进行，并进行了详细的内部消融分析。</p>
<p>主要竞赛结果</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">排名</th>
          <th style="text-align: left">平均得分（mean ± std）</th>
          <th style="text-align: left">Subject 1</th>
          <th style="text-align: left">Subject 2</th>
          <th style="text-align: left">Subject 3</th>
          <th style="text-align: left">Subject 5</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">1 (Ours)</td>
          <td style="text-align: left">0.2146 ± 0.0312</td>
          <td style="text-align: left">0.2381</td>
          <td style="text-align: left">0.2105</td>
          <td style="text-align: left">0.2377</td>
          <td style="text-align: left">0.1720</td>
      </tr>
      <tr>
          <td style="text-align: left">2</td>
          <td style="text-align: left">0.2096 ± 0.0283</td>
          <td style="text-align: left">0.2353</td>
          <td style="text-align: left">0.2046</td>
          <td style="text-align: left">0.2268</td>
          <td style="text-align: left">0.1718</td>
      </tr>
      <tr>
          <td style="text-align: left">3</td>
          <td style="text-align: left">0.2094 ± 0.0215</td>
          <td style="text-align: left">0.2233</td>
          <td style="text-align: left">0.2072</td>
          <td style="text-align: left">0.2271</td>
          <td style="text-align: left">0.1798</td>
      </tr>
      <tr>
          <td style="text-align: left">4</td>
          <td style="text-align: left">0.2085 ± 0.0267</td>
          <td style="text-align: left">0.2295</td>
          <td style="text-align: left">0.2003</td>
          <td style="text-align: left">0.2300</td>
          <td style="text-align: left">0.1743</td>
      </tr>
      <tr>
          <td style="text-align: left">5</td>
          <td style="text-align: left">0.2055 ± 0.0291</td>
          <td style="text-align: left">0.2306</td>
          <td style="text-align: left">0.2010</td>
          <td style="text-align: left">0.2240</td>
          <td style="text-align: left">0.1662</td>
      </tr>
  </tbody>
</table>
<p>表1：Algonauts 2025竞赛排行榜前五名。TRIBE以显著优势获得第一。</p>
<p>在不同电影上的泛化性能</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">是否分布外(OOD)</th>
          <th style="text-align: left">电影名称</th>
          <th style="text-align: left">平均得分（mean ± std）</th>
          <th style="text-align: left">Subject 1</th>
          <th style="text-align: left">Subject 2</th>
          <th style="text-align: left">Subject 3</th>
          <th style="text-align: left">Subject 5</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">✗</td>
          <td style="text-align: left">Friends Season 7</td>
          <td style="text-align: left">0.3195 ± 0.0289</td>
          <td style="text-align: left">0.3419</td>
          <td style="text-align: left">0.3239</td>
          <td style="text-align: left">0.3346</td>
          <td style="text-align: left">0.2775</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Pulp Fiction</td>
          <td style="text-align: left">0.2604 ± 0.0137</td>
          <td style="text-align: left">0.2765</td>
          <td style="text-align: left">0.2611</td>
          <td style="text-align: left">0.2431</td>
          <td style="text-align: left">0.2610</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Princess Mononoke</td>
          <td style="text-align: left">0.2449 ± 0.0572</td>
          <td style="text-align: left">0.2816</td>
          <td style="text-align: left">0.2507</td>
          <td style="text-align: left">0.2851</td>
          <td style="text-align: left">0.1623</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Passe-partout</td>
          <td style="text-align: left">0.2323 ± 0.0525</td>
          <td style="text-align: left">0.2763</td>
          <td style="text-align: left">0.2587</td>
          <td style="text-align: left">0.2370</td>
          <td style="text-align: left">0.1573</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">World of Tomorrow</td>
          <td style="text-align: left">0.1924 ± 0.0323</td>
          <td style="text-align: left">0.2210</td>
          <td style="text-align: left">0.1606</td>
          <td style="text-align: left">0.2196</td>
          <td style="text-align: left">0.1686</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Planet Earth</td>
          <td style="text-align: left">0.1886 ± 0.0380</td>
          <td style="text-align: left">0.1483</td>
          <td style="text-align: left">0.2029</td>
          <td style="text-align: left">0.2331</td>
          <td style="text-align: left">0.1699</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Charlie Chaplin</td>
          <td style="text-align: left">0.1686 ± 0.0551</td>
          <td style="text-align: left">0.2249</td>
          <td style="text-align: left">0.1289</td>
          <td style="text-align: left">0.2080</td>
          <td style="text-align: left">0.1128</td>
      </tr>
  </tbody>
</table>
<p>表2：模型在不同分布条件下的性能。即使是高度分布外的无声电影、动画和自然纪录片，模型仍能获得可观的分数。</p>
<p>多模态消融实验</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">验证集皮尔逊得分</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">仅文本 (T)</td>
          <td style="text-align: left">0.22</td>
      </tr>
      <tr>
          <td style="text-align: left">仅音频 (A)</td>
          <td style="text-align: left">0.24</td>
      </tr>
      <tr>
          <td style="text-align: left">仅视频 (V)</td>
          <td style="text-align: left">0.25</td>
      </tr>
      <tr>
          <td style="text-align: left">音频+文本 (A+T)</td>
          <td style="text-align: left">~0.28 (从图4a估算)</td>
      </tr>
      <tr>
          <td style="text-align: left">音频+视频 (A+V)</td>
          <td style="text-align: left">~0.29 (从图4a估算)</td>
      </tr>
      <tr>
          <td style="text-align: left">文本+视频 (T+V)</td>
          <td style="text-align: left">0.30</td>
      </tr>
      <tr>
          <td style="text-align: left">三模态 (A+T+V)</td>
          <td style="text-align: left">0.31</td>
      </tr>
  </tbody>
</table>
<p>图4的消融实验结果图清晰地展示了：多模态模型（尤其是三模态组合）在平均编码得分上显著优于任何单模态模型，验证了模态互补性的重要性。</p>
<p>模型组件消融实验</p>
<p><img alt="模型消融实验结果图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/biegtqdqmg-5.png"></p>
<p>图6a的消融实验结果图展示了：移除“多主体训练”或“Transformer”组件都会导致模型性能下降，其中移除Transformer的影响尤为巨大（从0.31降至0.23），证实了非线性时序建模和跨主体学习的关键作用。</p>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：6.5/7 - 创新性明确，系统性地解决了现有脑编码模型的三大痛点；方法设计合理，技术细节清晰；实验极为充分，既有大规模竞赛的端到端验证，也有深入的消融分析（模态、模型组件、超参数缩放律）和神经科学意义的探索（模态在脑区的分布）；所有结论都有坚实的数据支撑（表1、表2、图4、图6）。</li>
<li>选题价值：1.8/2 - 选题直指“构建整合性大脑认知模型”这一神经科学的终极目标之一，属于高度前沿和重要的方向。其方法不仅适用于fMRI，其框架思想可扩展至其他神经成像模态，对AI与认知神经科学的交叉领域有显著推动作用。</li>
<li>开源与复现加成：1.0/1 - 论文提供了完整的代码仓库链接（https://github.com/facebookresearch/algonauts-2025），并公开了所有关键的超参数设置（表3）、数据集使用信息（Courtois NeuroMod, CC0许可）和训练细节。这使得研究社区能够高度可信地复现其结果，是开源科学实践的典范。</li>
</ul>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>多模态模型</category>
      <category>预训练</category>
      <category>Transformer</category>
      <category>脑编码</category>
      <category>跨模态</category>
    </item>
    <item>
      <title>TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-tribe-trimodal-brain-encoder-for-whole-brain-fmri/</link>
      <pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-tribe-trimodal-brain-encoder-for-whole-brain-fmri/</guid>
      <description>&lt;h1 id=&#34;-tribe-trimodal-brain-encoder-for-whole-brain-fmri-response-prediction&#34;&gt;📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction&lt;/h1&gt;
&lt;p&gt;#多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;7.5/10&lt;/strong&gt; | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练&lt;/p&gt;
&lt;p&gt;学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Stéphane d‘Ascoli（Meta AI）&lt;/li&gt;
&lt;li&gt;通讯作者：未明确说明（根据邮箱格式，所有作者邮箱均为个人邮箱，无明确标注通讯作者）&lt;/li&gt;
&lt;li&gt;作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;这篇论文在Algonauts竞赛中大获全胜，其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点，将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而，对于一篇旨在“通向整合认知模型”的工作，其核心Transformer编码器的细节（如注意力机制如何具体捕捉跨模态和跨时间信息）描述过于简略，宛如一个黑箱，这与论文宣称的“非线性”优势相称却不够透明。&lt;/p&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码：是。论文提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。&lt;/li&gt;
&lt;li&gt;模型权重：未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开，仅提到了所使用的预训练基础模型（Llama, Wav2Vec-Bert, V-JEPA 2）的来源和许可证。&lt;/li&gt;
&lt;li&gt;数据集：未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道（CC0许可证），但论文未提供直接下载链接。&lt;/li&gt;
&lt;li&gt;Demo：未提及。&lt;/li&gt;
&lt;li&gt;复现材料：是。论文提供了详细的训练策略、超参数表格（表3）、硬件配置和模型架构描述，结合开源代码，复现细节较为充分。&lt;/li&gt;
&lt;li&gt;论文中引用的开源项目：
&lt;ul&gt;
&lt;li&gt;预训练模型：Llama-3.2-3B， Wav2Vec-Bert-2.0， V-JEPA 2。&lt;/li&gt;
&lt;li&gt;软件库：x-transformers， nilearn， PyTorch。&lt;/li&gt;
&lt;li&gt;数据集：Courtois NeuroMod。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;论文中未提及开源计划：未提及模型权重的开源计划，未提及数据集的直接下载方式。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;p&gt;这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题，致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激（视频）反应的通用模型。其核心方法是TRIBE模型，它分别从预训练的视频、音频和文本大模型中提取动态特征，并通过一个Transformer编码器融合这些特征，最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比，TRIBE的新颖之处在于它是首个同时实现了非线性融合（通过Transformer）、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中，TRIBE取得了第一名（平均编码分数0.2146），显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层（如前额叶、顶枕颞叶皮层）的显著增益，以及Transformer和多被试训练的关键作用。该工作表明，多模态信息整合对于准确预测全脑活动至关重要，为构建整合性的人脑表征模型铺平了道路。其主要局限性在于：1) 在1000个脑区的粗粒度上建模，空间分辨率有限；2) 仅处理fMRI数据，缺乏更精确的时间分辨率；3) 仅基于4名被试的数据训练，泛化到新被试的能力尚未验证。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-tribe-trimodal-brain-encoder-for-whole-brain-fmri-response-prediction">📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction</h1>
<p>#多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理</p>
<p>✅ <strong>7.5/10</strong> | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练</p>
<p>学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Stéphane d‘Ascoli（Meta AI）</li>
<li>通讯作者：未明确说明（根据邮箱格式，所有作者邮箱均为个人邮箱，无明确标注通讯作者）</li>
<li>作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI）</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>这篇论文在Algonauts竞赛中大获全胜，其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点，将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而，对于一篇旨在“通向整合认知模型”的工作，其核心Transformer编码器的细节（如注意力机制如何具体捕捉跨模态和跨时间信息）描述过于简略，宛如一个黑箱，这与论文宣称的“非线性”优势相称却不够透明。</p>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：是。论文提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。</li>
<li>模型权重：未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开，仅提到了所使用的预训练基础模型（Llama, Wav2Vec-Bert, V-JEPA 2）的来源和许可证。</li>
<li>数据集：未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道（CC0许可证），但论文未提供直接下载链接。</li>
<li>Demo：未提及。</li>
<li>复现材料：是。论文提供了详细的训练策略、超参数表格（表3）、硬件配置和模型架构描述，结合开源代码，复现细节较为充分。</li>
<li>论文中引用的开源项目：
<ul>
<li>预训练模型：Llama-3.2-3B， Wav2Vec-Bert-2.0， V-JEPA 2。</li>
<li>软件库：x-transformers， nilearn， PyTorch。</li>
<li>数据集：Courtois NeuroMod。</li>
</ul>
</li>
<li>论文中未提及开源计划：未提及模型权重的开源计划，未提及数据集的直接下载方式。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<p>这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题，致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激（视频）反应的通用模型。其核心方法是TRIBE模型，它分别从预训练的视频、音频和文本大模型中提取动态特征，并通过一个Transformer编码器融合这些特征，最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比，TRIBE的新颖之处在于它是首个同时实现了非线性融合（通过Transformer）、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中，TRIBE取得了第一名（平均编码分数0.2146），显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层（如前额叶、顶枕颞叶皮层）的显著增益，以及Transformer和多被试训练的关键作用。该工作表明，多模态信息整合对于准确预测全脑活动至关重要，为构建整合性的人脑表征模型铺平了道路。其主要局限性在于：1) 在1000个脑区的粗粒度上建模，空间分辨率有限；2) 仅处理fMRI数据，缺乏更精确的时间分辨率；3) 仅基于4名被试的数据训练，泛化到新被试的能力尚未验证。</p>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>TRIBE模型的整体架构旨在将三种模态的刺激信息映射到全脑fMRI响应。其核心流程如图2所示。</p>
<p><img alt="图2: 模型架构示意图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/biegtqdqmg-1.png"></p>
<ol>
<li>输入与特征提取：</li>
</ol>
<ul>
<li>输入：视频片段、对应的音频文件、以及带时间戳的文本转录稿。</li>
<li>文本嵌入：使用预训练的<code>Llama-3.2-3B</code>语言模型。对于每个词，拼接其前面最多1024个词作为上下文输入模型，取中间层表示（维数<code>D_text=3072</code>）。然后将嵌入在时间上对齐到2Hz的网格，对齐方法是将一个时间仓内出现的所有词的嵌入求和。</li>
<li>音频嵌入：使用预训练的<code>Wav2Vec-Bert-2.0</code>。将音频切成60秒的块，输入模型，提取中间层表示（维数<code>D_audio=1024</code>）。将50Hz的输出重采样到2Hz。</li>
<li>视频嵌入：使用预训练的<code>V-JEPA 2 gigantic</code>。在2Hz的时间网格上，取当前时间点之前4秒（共64帧）作为输入。为降低计算量，对模型输出的时空patch token进行空间平均，得到时间序列表示（维数<code>D_video=1408</code>）。这会损失空间位置信息。</li>
</ul>
<ol start="2">
<li>模态融合预处理：</li>
</ol>
<ul>
<li>对每个模态的中间层特征，按层相对深度分为L=2组（0.5-0.75 和 0.75-1.0），在组内平均，以保留从浅层到深层的信息。</li>
<li>每个模态经过一个线性层投影到共享维度<code>D=1024</code>，然后层归一化。</li>
<li>将三个模态在特征维度上拼接，形成每个时间步<code>[3 * 1024]</code>维的多模态嵌入向量，时间步长为0.5秒（2Hz）。</li>
</ul>
<ol start="3">
<li>Transformer编码器：</li>
</ol>
<ul>
<li>将上述多模态时间序列输入一个8层、8头的Transformer编码器。加入可学习的位置嵌入。</li>
<li>Transformer允许时间步之间交换信息，能够建模动态依赖和跨模态交互。图9显示其注意力权重峰值出现在当前时间点之后5-10秒，与血流动力学响应函数一致，表明模型能自动学习延迟响应。</li>
</ul>
<ol start="4">
<li>输出与预测：</li>
</ol>
<ul>
<li>在Transformer输出后，使用自适应平均池化层将时间步序列压缩到与输入视频窗口对应的N个TR（重复时间）步。每步的嵌入维度为<code>3*1024</code>。</li>
<li>被试层：这是一个条件层，针对每个被试学习一个独立的线性投影矩阵，将Transformer的输出映射到目标空间（1000个脑区的fMRI值）。这允许一个模型同时预测多个被试的大脑响应。</li>
</ul>
<ol start="5">
<li>训练与目标：</li>
</ol>
<ul>
<li>目标（Ground Truth）：经预处理和z-score化的全脑BOLD信号，时间分辨率为TR=1.49秒。</li>
<li>为应对血流动力学延迟，将目标相对于输入偏移5秒。</li>
<li>损失函数：预测值与目标之间的均方误差（MSE）。</li>
</ul>
<p>设计动机： 该架构直接针对线性模型、单模态和被试特异性这三个传统限制。使用预训练大模型特征是为了利用其与大脑表征的对齐性；Transformer实现非线性时空融合；被试层实现多被试联合学习。</p>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>
<p>首个端到端多模态非线性脑编码模型：</p>
<ul>
<li>局限：此前模型大多使用线性映射（Ridge Regression）连接AI表征与大脑响应，且多为单模态。</li>
<li>创新：TRIBE将视频、音频、文本三种模态的预训练特征输入一个Transformer编码器，通过端到端训练来学习最佳的模态融合方式，以预测大脑响应。</li>
<li>收益：在全脑平均性能上显著优于任何单模态模型，尤其是在高级联合皮层（如图4b所示），增益可达30%。</li>
</ul>
</li>
<li>
<p>多被试联合训练架构：</p>
<ul>
<li>局限：由于个体间大脑响应差异大，传统方法为每个被试单独训练模型，无法利用被试间的共性。</li>
<li>创新：引入一个被试特定的线性层，使得一个共享的Transformer主干网络可以同时为不同被试生成预测，仅通过该层进行个性化调整。</li>
<li>收益：与单独训练相比，提升了编码分数（图6a），并证明了被试间共享表征的可行性。</li>
</ul>
</li>
<li>
<p>利用大模型多层级特征并进行时序对齐：</p>
<ul>
<li>局限：简单使用预训练模型的最终层特征可能不是最优，且不同模态的特征在时间上原始对齐方式不同。</li>
<li>创新：对每个模态，提取其基础模型不同深度层的特征并分组平均，以融合低级与高级信息。同时，将文本和视频特征重采样到与音频一致的2Hz频率上，实现时间对齐。</li>
<li>收益：图7和图8显示，较深的层特征对高级皮层的编码效果更好，验证了该设计的合理性。</li>
</ul>
</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：基于Courtois NeuroMod数据集。包含6名被试观看《老友记》和4部电影的fMRI数据，总计超80小时。论文中使用Algonauts竞赛策划的4名被试子集进行训练。预处理包括：fMRIprep、MNI标准空间投影、使用Schaefer图谱进行1000个脑区分割，然后在每个扫描会话内对每个脑区进行z-score归一化。</li>
<li>损失函数：均方误差（MSE）。评估指标为每个脑区预测与真实BOLD信号的皮尔逊相关系数（Pearson ρ），并对所有脑区取平均。</li>
<li>训练策略：
<ul>
<li>优化器：AdamW。</li>
<li>学习率：10^-4，前10%的步数线性warmup，之后采用余弦衰减。</li>
<li>Batch Size：16。</li>
<li>训练轮数：最多15个epoch，使用基于验证集皮尔逊分数的早停。</li>
<li>模型集成：训练M=1000个不同初始化和随机种子的模型，并对超参数进行网格搜索采样（表3）。对每个脑区，根据验证集性能对1000个模型的预测进行加权平均（权重由性能的softmax分布决定，温度0.3）。</li>
<li>稳定训练技巧：使用了随机权重平均（SWA），在验证指标进入平台期后，对每个epoch末的模型权重进行平均。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li>Transformer编码器：8层，8头。</li>
<li>特征提取：文本模型（Llama-3.2-3B，3072维），音频模型（Wav2Vec-Bert-2.0，1024维），视频模型（V-JEPA 2 gigantic，1408维）。</li>
<li>融合后维度：每模态1024维，拼接后3072维。</li>
<li>输入窗口：T = N * TR，其中N=100 TR，采样频率f=2Hz。</li>
</ul>
</li>
<li>训练硬件：特征提取在128块V100 32GB GPU上耗时24小时。TRIBE模型训练在单块V100上耗时24小时。</li>
<li>推理细节：未详细说明解码策略等，因为是回归任务。重点在于使用集成模型进行加权预测。</li>
<li>正则化：引入了模态随机丢弃：训练时，以概率p（文中未明确具体值，消融实验用了0.2）将每个模态的输入置零，但至少保留一个模态未被遮蔽，以鼓励模型不过度依赖单一模态，并能处理缺失模态输入。</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<p>主要任务：Algonauts 2025竞赛结果
TRIBE在267个团队中获得第一名。</p>
<ul>
<li>
<p>表1：竞赛排行榜前5名（训练集为Friends第7季，验证集为相同分布视频）</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">排名</th>
          <th style="text-align: left">平均分数（均值±标准差）</th>
          <th style="text-align: left">被试1</th>
          <th style="text-align: left">被试2</th>
          <th style="text-align: left">被试3</th>
          <th style="text-align: left">被试5</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">1 (TRIBE)</td>
          <td style="text-align: left">0.2146 ± 0.0312</td>
          <td style="text-align: left">0.2381</td>
          <td style="text-align: left">0.2105</td>
          <td style="text-align: left">0.2377</td>
          <td style="text-align: left">0.1720</td>
      </tr>
      <tr>
          <td style="text-align: left">2</td>
          <td style="text-align: left">0.2096 ± 0.0283</td>
          <td style="text-align: left">0.2353</td>
          <td style="text-align: left">0.2046</td>
          <td style="text-align: left">0.2268</td>
          <td style="text-align: left">0.1718</td>
      </tr>
      <tr>
          <td style="text-align: left">3</td>
          <td style="text-align: left">0.2094 ± 0.0215</td>
          <td style="text-align: left">0.2233</td>
          <td style="text-align: left">0.2072</td>
          <td style="text-align: left">0.2271</td>
          <td style="text-align: left">0.1798</td>
      </tr>
      <tr>
          <td style="text-align: left">4</td>
          <td style="text-align: left">0.2085 ± 0.0267</td>
          <td style="text-align: left">0.2295</td>
          <td style="text-align: left">0.2003</td>
          <td style="text-align: left">0.2300</td>
          <td style="text-align: left">0.1743</td>
      </tr>
      <tr>
          <td style="text-align: left">5</td>
          <td style="text-align: left">0.2055 ± 0.0291</td>
          <td style="text-align: left">0.2306</td>
          <td style="text-align: left">0.2010</td>
          <td style="text-align: left">0.2240</td>
          <td style="text-align: left">0.1662</td>
      </tr>
  </tbody>
</table>
</li>
<li>
<p>表2：模型在不同分布（OOD）电影上的泛化性能</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">分布外(OOD)</th>
          <th style="text-align: left">电影</th>
          <th style="text-align: left">平均分数</th>
          <th style="text-align: left">被试1</th>
          <th style="text-align: left">被试2</th>
          <th style="text-align: left">被试3</th>
          <th style="text-align: left">被试5</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">✗ (同分布)</td>
          <td style="text-align: left">Friends Season 7</td>
          <td style="text-align: left">0.3195 ± 0.0289</td>
          <td style="text-align: left">0.3419</td>
          <td style="text-align: left">0.3239</td>
          <td style="text-align: left">0.3346</td>
          <td style="text-align: left">0.2775</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Pulp Fiction</td>
          <td style="text-align: left">0.2604 ± 0.0137</td>
          <td style="text-align: left">0.2765</td>
          <td style="text-align: left">0.2611</td>
          <td style="text-align: left">0.2431</td>
          <td style="text-align: left">0.2610</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Princess Mononoke</td>
          <td style="text-align: left">0.2449 ± 0.0572</td>
          <td style="text-align: left">0.2816</td>
          <td style="text-align: left">0.2507</td>
          <td style="text-align: left">0.2851</td>
          <td style="text-align: left">0.1623</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Passe-partout</td>
          <td style="text-align: left">0.2323 ± 0.0525</td>
          <td style="text-align: left">0.2763</td>
          <td style="text-align: left">0.2587</td>
          <td style="text-align: left">0.2370</td>
          <td style="text-align: left">0.1573</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">World of Tomorrow</td>
          <td style="text-align: left">0.1924 ± 0.0323</td>
          <td style="text-align: left">0.2210</td>
          <td style="text-align: left">0.1606</td>
          <td style="text-align: left">0.2196</td>
          <td style="text-align: left">0.1686</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Planet Earth</td>
          <td style="text-align: left">0.1886 ± 0.0380</td>
          <td style="text-align: left">0.1483</td>
          <td style="text-align: left">0.2029</td>
          <td style="text-align: left">0.2331</td>
          <td style="text-align: left">0.1699</td>
      </tr>
      <tr>
          <td style="text-align: left">✓</td>
          <td style="text-align: left">Charlie Chaplin</td>
          <td style="text-align: left">0.1686 ± 0.0551</td>
          <td style="text-align: left">0.2249</td>
          <td style="text-align: left">0.1289</td>
          <td style="text-align: left">0.2080</td>
          <td style="text-align: left">0.1128</td>
      </tr>
  </tbody>
</table>
</li>
</ul>
<p>关键消融实验（图4a &amp; 图6a）：</p>
<ul>
<li>模态消融：单模态（文本、音频、视频）性能分别为0.22, 0.24, 0.25。最佳双模态（文本+视频）为0.30，全三模态为0.31，证明了多模态融合的互补性。</li>
<li>模型组件消融：移除多被试训练，分数从0.31降至0.29；移除Transformer（即不进行时序融合），分数大幅降至0.23。</li>
</ul>
<p>全脑预测与噪声上限分析（图3）：</p>
<ul>
<li>模型预测了所有1000个脑区，且均显著高于随机水平（q(FDR) &lt; 10^-3）。</li>
<li>归一化皮尔逊分数为0.54±0.1，意味着平均捕获了约54%的可解释方差。在听觉和语言皮层，该值超过80%。</li>
</ul>
<p>多模态交互的脑区特异性（图4b, 图5）：</p>
<ul>
<li>多模态模型的增益在高级联合皮层（如前额叶、顶枕颞叶交界处）最大。</li>
<li>图5显示，不同模态主导不同的脑区（文本：额叶/顶叶；音频：颞叶；视频：枕叶/部分顶叶），并且存在模态交互的脑区（如文本+音频在颞上回，视频+音频在腹侧/背侧视觉皮层）。</li>
</ul>
<p>Scaling Laws（图6b, 6c）：</p>
<ul>
<li>增加训练数据（会话数）和语言模型的上下文长度，均能持续提升编码性能，且未出现平台期。</li>
</ul>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>
<p>学术质量：5.5/7</p>
<ul>
<li>创新性（+）：首次将“非线性、多被试、多模态”三个关键特性整合进一个端到端的脑编码框架，并在竞赛中取得SOTA，是该任务的重要推进。</li>
<li>技术正确性（+）：模型设计逻辑清晰，消融实验（图4a，6a）充分验证了各模块的贡献。</li>
<li>实验充分性（-）：实验主要围绕Algonauts竞赛任务展开。虽然内部消融实验充分，但缺乏与已发表文献中其他先进单模态或多模态脑编码模型（如在Courtois数据集上报道的线性或浅层非线性模型）的直接性能对比（表1仅对比了竞赛其他团队，未说明其技术细节）。此外，对Transformer内部工作机制的可视化（如图9注意力图）解释力有限。</li>
<li>证据可信度（+）：基于大规模、高质量的Courtois NeuroMod数据集，评估指标（皮尔逊相关）是领域标准，噪声天花板分析（图3）增加了结果的可信度。</li>
</ul>
</li>
<li>
<p>选题价值：2.0/2</p>
<ul>
<li>前沿性（+）：该工作直击神经科学与AI交叉领域的核心挑战——构建统一的认知模型，是计算神经科学的重要前沿。</li>
<li>潜在影响（+）：其范式可能改变脑编码研究的现状，从碎片化走向整合，并为理解大脑信息处理提供新工具。</li>
<li>应用空间（中）：长期看有脑机接口、认知监测等应用潜力，但论文聚焦于基础研究。</li>
<li>读者相关性：对于���频/语音领域的读者，论文中音频模态的处理和跨模态交互的发现（图5）有直接参考价值。</li>
</ul>
</li>
<li>
<p>开源与复现加成：+1.0/1</p>
<ul>
<li>论文明确提供了完整的代码仓库链接（https://github.com/facebookresearch/algonauts-2025）。</li>
<li>详细列出了所有使用的预训练模型（及其许可证）、关键软件包和数据集。</li>
<li>超参数配置（表3）、训练细节（优化器、调度、SWA、集成策略）描述清晰。</li>
<li>这极大地降低了复现门槛，是重要的贡献。</li>
</ul>
</li>
</ul>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>多模态模型</category>
      <category>音频事件检测</category>
      <category>预训练</category>
      <category>脑编码</category>
      <category>自然刺激处理</category>
    </item>
  </channel>
</rss>
