📄 MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning

#自监督学习

7.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5

✅ 7.4/10 | 前25% | #自监督学习 | #自监督学习 | arxiv

👥 作者与机构

Meta FAIR (Revant Teotia, Adrien Bardes, Michael Rabbat, Sumit Chopra, Matthew Muckley, Nicolas Ballas), New York University (Revant Teotia)

💡 毒舌点评

论文提出了一个“简单”的框架，但其消融实验和超参数配置可一点也不简单。将一个巨大的ViT-g模型（1B参数）在混合数据集上训练，本身就需要巨大的计算资源，这与“简单”的宣称形成微妙对比。虽然结果不错，但将成功很大程度归功于“跨模态预测”这一简单机制，可能忽略了精心设计的训练技巧（如多阶段学习率、损失缩放）和规模化数据本身带来的红利。此外，结论中称该方法为“模态无关的统一架构”，但目前只在音频-视频这对相对规整的共现模态上验证，距离真正通用的多模态框架还有距离。未来工作部分提到的医学影像、机器人学等更多是画饼，缺乏初步论证。

📌 核心摘要

本文提出了MJEPA，一个用于音视频自监督学习的简单且可扩展的联合嵌入预测架构。不同于先前依赖模态特定编码器和复杂损失函数（如对比学习、重建）的方法，MJEPA采用单一的共享编码器和统一的JEPA预测目标。其核心创新在于显式引入“跨模态预测”机制：除了预测同一模态内的被掩码特征（模态内预测），还预测一个模态的聚合特征（通过池化）从另一个模态（跨模态预测）。消融实验表明，朴素地共享编码器而不进行跨模态对齐会导致两个模态的性能均低于其单模态基线；而引入跨模态预测后，性能显著提升，实现了模态间的正向迁移。在AudioSet-20K等基准上的冻结评估中，MJEPA超越了先前的冻结SOTA方法，其冻结特征在部分音频任务上甚至优于全量微调模型，在视频任务上使用10倍少的视频数据也能达到可比性能。论文强调了在简单架构下，通过合适的预测目标实现跨模态对齐的重要性。

🔗 开源详情

代码：论文中未提供代码链接。
模型权重：论文中未提供模型权重下载链接。
数据集：论文中使用了AudioSet-20K， ESC-50， FSD50K， Kinetics-400， SSv2等公开数据集，但未提供获取链接。
Demo：未提及。
复现材料：论文未提供预训练检查点。训练配置（超参数等）在补充材料（Supplementary Material）中提供。
论文中引用的开源项目：未提及。

🏗️ 方法概述和架构

MJEPA的核心思想是使用一个统一的、模态无关的编码器和预测框架，同时从音频和视频中学习可泛化的表示。其方法论通过一个渐进的消融过程展开。

输入表示与分词：音频和视频首先通过各自模态特定的投影层进行分词。音频使用2D卷积将log-mel频谱图转换为token序列；视频使用3D卷积将视频片段转换为时空tubelet的token序列。为使共享编码器能够区分模态并编码结构信息，输入被添加了模态特定的可学习嵌入（modality embedding）和位置嵌入。对于音频使用2D正弦余弦位置编码，对于视频使用3D正弦余弦位置编码。
共享编码器：一个统一的Vision Transformer (ViT) 编码器（实验中使用ViT-L/300M和ViT-g/1B）被设计用于处理三种输入模式：仅音频、仅视频、音视频拼接。编码器对输入token序列进行处理，输出对应模态的表示。
预测目标与损失函数：这是MJEPA的核心。训练信号完全来自JEPA目标，即预测被掩码区域的表示，损失函数为L1距离。具体分为两类：
- 模态内预测 (Intra-modal Prediction)：对于输入模态 \(m \in \{a, v, av\}\)，使用上下文编码器 \(E_\theta\) 处理掩码后的可见部分，目标编码器 \(E_{\bar{\theta}}\)（是 \(E_\theta\) 的指数移动平均EMA）处理完整的未掩码输入。一个共享的预测器 \(P_\phi\) 根据可见token的表示和可学习的掩码token \(\Delta^m\)，预测目标编码器在掩码位置的特征。损失 \(\mathcal{L}_{m \to m}\) 对掩码token位置的预测与目标表示进行L1距离计算。这产生了三个损失项：\(\mathcal{L}_{a \to a}\)， \(\mathcal{L}_{v \to v}\)，和 \(\mathcal{L}_{av \to av}\)。为鼓励学习丰富的特征层次，模态内预测采用了多层级预测（multi-level prediction），即融合编码器多个中间层的特征进行预测。
- 跨模态预测 (Cross-modal Prediction)：这是实现正向迁移的关键。针对源模态 \(m_1\) 和目标模态 \(m_2\)，使用一个轻量级的跨模态预测器 \(C_{\psi}^{m_1 \to m_2}\)（一个简单的3层MLP），它以掩码后源模态经上下文编码器处理后的最后一层输出的全局平均池化特征作为输入，预测未掩码目标模态经目标编码器处理后的最后一层输出的全局平均池化特征。损失 \(\mathcal{L}_{m_1 \to m_2}\) 计算此预测与目标池化特征之间的L1距离。论文中建立了六个这样的跨模态预测任务：\(a \leftrightarrow v\), \(a \leftrightarrow av\), \(v \leftrightarrow av\)。使用池化特征是因为音频和视频token之间没有天然的对齐关系，高层语义特征更适合跨模态对齐。
完整MJEPA模型与训练：最终的MJEPA模型同时使用所有九个损失项（三个模态内损失和六个跨模态损失）的无权重和进行训练。训练过程是渐进的：先建立单模态基线，然后发现共享编码器+模态内损失会导致性能下降，接着加入跨模态对齐后性能大幅提升，最后引入联合音视频编码（即使用\(\mathcal{L}_{av \to av}\)及相关的跨模态损失）并扩展数据和模型规模，性能进一步提升。模型使用AdamW优化器训练，并采用了一些训练技巧，如对视频单独数据的损失进行缩放（缩放因子为5.0）以平衡梯度。
评估协议：所有评估采用冻结评估协议，即冻结预训练编码器的权重，仅在其上训练一个轻量级的注意力探针（attentive probe）进行下游任务分类。

💡 核心创新点

架构简化：提出首个将单一共享编码器和纯JEPA预测目标（无对比损失、无重建损失）应用于音视频自监督学习的框架MJEPA，挑战了先前依赖模态特定编码器和复杂混合损失的范式。
跨模态预测机制：明确证明了在共享编码器设置中，引入显式的跨模态预测目标是解决表征退化、实现模态间正向迁移的关键。这一机制简单但有效，使得每个模态的表示能从另一个模态中受益。
实证验证与扩展性：通过从单模态到多模态、从简单到复杂的详尽渐进消融，清晰地展示了每个设计组件（共享编码器、跨模态对齐、联合编码、数据/模型扩展）的贡献。证明了该简单架构在扩展到大规模数据和模型（1B参数）时的有效性。

📊 实验结果

实验评估涵盖音频、视频和音视频分类任务，所有结果均基于冻结评估协议。

音频-视频冻结评估 (AudioSet-20K)

方法	参数	预训练数据	音频 (A) mAP↑	视频 (V) mAP↑	音视频 (A-V) mAP↑
冻结评估
CAV-MAE	170M	IN+AS	19.38	18.14	34.59
MAViL	170M	IN+AS	30.00	–	–
EquiAV	170M	IN+AS	34.25	18.60	38.60
CAV-MAE Sync	170M	IN+AS	21.66	16.20	28.50
MJEPA ViT-L (本文)	300M	AS	38.89	25.38	42.90
MJEPA ViT-L + 扩展数据 (本文)	300M	AS+VM2M	40.00	29.63	45.31
MJEPA ViT-g + 扩展数据 (本文)	1B	AS+VM2M	40.97	29.82	45.44
全量微调
CAV-MAE	170M	IN+AS	37.70	19.80	42.00
MAViL	170M	IN+AS	41.80	24.80	44.90
EquiAV	170M	IN+AS	42.40	25.70	46.60

主要结论：MJEPA的冻结特征在三个设置上均超越了先前的最佳冻结基线（EquiAV）。其基础ViT-L模型在音频、视频和音视频评估上分别高出4.6、6.8和4.3 mAP。扩展数据后的ViT-L模型，其冻结视频性能（29.63 mAP）超越了所有报告的全量微调基线。最终的ViT-g模型性能（45.44 mAP）非常接近最佳全量微调结果（46.60 mAP）。

音频冻结评估

方法	编码器参数	模态	预训练数据	AS20K mAP↑	ESC-50 准确率↑	FSD50K mAP↑
冻结特征探针
AJEPA	85M	A	AS	18.0	74.4	43.9
SSLAM	88M	A	AS	31.4	93.2	57.9
SPEAR	600M	A	197k hrs mix	11.9	89.4	57.1
Dasheng-1.2B	1.2B	A	272k hrs mix	31.6	92.2	56.9
CAV-MAE	170M	A+V	IN+AS	19.4	77.5	46.1
MAViL	170M	A+V	IN+AS	30.0	90.8	–
XKD	170M	A+V	AS	–	93.6	51.5
EquiAV	170M	A+V	AS	34.3	93.2	57.9
CAV-MAE Sync	170M	A+V	AS	21.7	89.2	55.5
MJEPA ViT-L (本文)	300M	A+V	AS	38.9	95.2	63.9
MJEPA ViT-L + 扩展数据 (本文)	300M	A+V	AS+VM2M	40.0	96.8	65.5
MJEPA ViT-g + 扩展数据 (本文)	1B	A+V	AS+VM2M	40.9	96.9	65.8
全量微调
AJEPA	85M	A	AS	38.4	96.3	–
SSLAM	88M	A	AS	40.9	96.2	–
EquiAV	170M	A+V	AS	42.4	96.0	62.6

主要结论：MJEPA在通用音频任务上设立了新的冻结SOTA。其扩展后的模型在ESC-50（96.9%）和FSD50K（65.8 mAP）上超越了最佳的全量微调报告结果（XKD的96.5%和EquiAV的62.6%）。

视频冻结评估

方法	编码器参数	预训练数据	K400 Top-1准确率↑	SSv2 Top-1准确率↑
VJEPA ViT-L	300M	VM2M	80.8	69.5
VJEPA ViT-H	600M	VM2M	82.0	71.4
VJEPA2 ViT-L	300M	VM22M	85.1	73.7
VJEPA2 ViT-g	1B	VM22M	86.6	75.3
MJEPA ViT-L (本文)	300M	AS	75.2	58.6
MJEPA ViT-L (本文)ᵃ	300M	VM2M	80.6	69.8
MJEPA ViT-L + 扩展数据 (本文)	300M	AS+VM2M	84.7	73.3
MJEPA ViT-g + 扩展数据 (本文)	1B	AS+VM2M	85.0	73.9

注：ᵃ 使用仅视频的模态内损失 \(\mathcal{L}_{v \to v}\) 训练，用于与VJEPA比较。

主要结论：MJEPA通过结合音频数据，显著提升了视频表示。其扩展后的ViT-L模型在K400（84.7%）和SSv2（73.3%）上几乎匹配了使用约10倍视频数据（VM22M）训练的VJEPA2 ViT-L（85.1% / 73.7%）的性能。

⚖️ 评分理由

创新性 (1.4/2)：将JEPA范式成功扩展到音视频多模态领域，并用实验证明了跨模态预测对共享编码器的关键作用，具有明确的创新点。但核心思想（跨模态对齐、共享编码器）在多模态学习中并非全新，方法的原创性主要体现在将简单性发挥到极致。
技术严谨性 (1.2/1.5)：实验设计系统（渐进消融），评估协议公平（统一使用更强的注意力探针进行冻结评估），结果分析合理。然而，对于关键的跨模态预测器为何使用简单的池化特征和MLP，缺乏更深入的讨论或探索其他更复杂机制（如token-level预测）的失败实验。损失函数权重未作说明（默认为无权重和），超参数搜索细节在补充材料中。
实验充分性 (1.2/1.5)：在五个主流基准上进行了全面评估，并与多种有代表性的基线进行了公平比较（重新评估）。消融实验完整，展示了每个组件的贡献。不足在于，未提供更多分析来解释性能提升的具体来源，例如跨模态预测究竟对齐了哪些语义信息。
清晰度 (1.5/1.5)：论文写作极为清晰，结构逻辑性强。图1和图2直观地展示了方法动机和架构。从问题引入到方法发展，再到全面评估，叙述流畅，易于理解。
影响力 (1.2/2)：对于音频/语音领域的研究者，该工作证明了简单架构在音视频学习中的潜力，具有直接的参考价值。其“简单架构+合适目标”的思路可能影响后续多模态SSL方法的设计。但作为一项基础架构工作，其影响范围可能主要局限于音视频自监督学习社区。
开源 (0.2/1.5)：论文未提供代码、模型权重或数据集链接。仅提供了训练配置在补充材料中。这对于顶会论文而言是一个明显的遗憾，严重影响了可复现性和社区影响力。
可复现性 (0.7/1.5)：由于未开源，复现完全依赖论文描述和补充材料中的配置。虽然描述较详细，但缺少代码和预训练模型，完全复现其大规模训练结果（尤其是1B模型）的门槛极高，对于大多数研究者而言不现实。
工程/实践价值 (0.7/1)：展示了简单架构在大规模多模态学习中的可行性，为构建统一表示模型提供了有价值的实践参考。冻结评估协议模拟了实际部署场景。然而，其极高的训练成本（1B模型）限制了其直接的广泛应用。

🚨 局限与问题

训练成本与可及性：论文声称“简单”和“可扩展”，但实验涉及300M和1B参数的ViT模型，在大规模混合数据集上训练。这种规模的训练需要巨大的计算资源，这与“简单”的叙事略有矛盾，也限制了方法的可及性。论文未详细报告训练时间、FLOPs等效率指标。
跨模态预测机制的局限性：当前跨模态预测器极其简单（基于池化特征的MLP）。这可能是性能的瓶颈，因为它强制将整个模态的信息压缩成一个全局向量进行预测，丢失了所有token级的细粒度对应关系。论文作者也承认这一点，但未探索更复杂的机制（如基于交叉注意力的token-to-token预测）为何可能失败或带来什么新问题。
模态特定与共享编码器的矛盾：共享编码器可能难以同时最佳地处理两种模态的底层特征（如音频频谱与视频纹理）。论文通过模态特定的分词器和位置编码来缓解，但这是否足够？更优的方案可能是部分参数共享而非完全共享。论文未深入探讨这种设计选择的边界。
结论的强度与泛化性：结论中声称“MJEPA serves as a successful proof-of-concept for a truly modality-agnostic architecture”。然而，音频和视频是时序对齐、共现性极强的“友好”模态。对于模态间对应关系稀疏、抽象或不同步的领域（如文本-图像、医疗影像-临床报告），该简单架构的有效性完全未知，因此“真正模态无关”的断言为时过早。
评估的局限性：所有评估均基于分类任务（冻结探针）。对于表示学习的质量，更本质的评估应包括生成能力（如预测被掩码的视频或音频）、密集预测任务（如分割、检测）或迁移学习到更多样化的下游任务。当前评估可能高估了表示的通用性。
与SOTA的差距：在视频任务上，MJEPA ViT-g仍未超越VJEPA2 ViT-g（85.0% vs. 86.6% on K400），尽管使用了音频数据。这表明在纯视频理解上，专门的视频模型可能仍有优势，音频的增益可能有限。

← 返回 2026-06-25 语音/音乐/音频论文速递

📄 MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文