A global predicted-fMRI drive signal from TRIBE does not predict YouTube replay heatmaps
📄 A global predicted-fMRI drive signal from TRIBE does not predict YouTube replay heatmaps #音视频理解 #多模态模型 7.7/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.7/10 | 前25% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构 第一作者:Barada Sahu(Cabal AI) 通讯作者:论文明确标注 Correspondence: barada@gmail.com, cs21bt067.alum25@iitdh.ac.in(两位作者均列为通讯联系人) 作者列表:Barada Sahu(Cabal AI)、Shivesh Pandey(Para AI) 💡 毒舌点评 这是一个负结果但执行得非常干净的实证研究:统计控制、低层基线、排列检验、网络特异性读出一应俱全,把"用预训练脑编码模型的预测信号预判回看行为"这个合理猜想打得粉碎。然而,48个视频的样本规模、YouTube热图本身的内在偏置,以及作品与音频社区核心关切的遥远距离,都让它更像一则谨慎的健康提醒,而非一份能驱动后续大量工作的基石性发现。 📌 核心摘要 本文试图回答一个新颖问题:用当前最强的脑编码模型(TRIBE,2025年Algonauts挑战赛263支队伍中的冠军模型)预测出的fMRI信号,能否像实测fMRI那样预测群体的行为参与度(YouTube"最多重播"热图)。研究者将TRIBE对48个视频的皮层响应浓缩为"全局场功率"(GFP)这一逐秒参与度曲线,与YouTube热图做位置控制的偏相关分析。结果显示,无论整体、分网络还是经自相关保持的排列检验,预测信号与重播行为的相关性均不显著(偏相关 \(r_{part} = +0.058\),95% CI \([-0.04, 0.15]\),\(t(47)=1.21\),\(p=0.23\)),且未超过简单响度或运动基线。工作还贡献了一套绕过YouTube SABR流媒体限制的视频采集pipeline和可恢复的编码缓存系统。论文的意义在于为"用预训练脑编码模型零成本预测市场行为"这种诱人想法提供了首次系统性负证据,其局限在于行为目标的噪声、视频样本的偏差以及所测模型未经行为端点微调。 ...