📄 Masked Autoencoders with Limited Data: Does It Work? A Fine-Grained Bioacoustics Case Study

#音频分类 #自监督学习 #预训练 #数据集 #音频分析

📝 5.5/10 | 前50% | #音频分类 | #自监督学习 | #预训练 #数据集 | arxiv

学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 中高

👥 作者与机构

  • 第一作者:Wuao Liu(University of Massachusetts Amherst)
  • 通讯作者:未说明
  • 作者列表:Wuao Liu(University of Massachusetts Amherst)、Mustafa Chasmai(University of Massachusetts Amherst)、Subhransu Maji(University of Massachusetts Amherst)、Grant Van Horn(University of Massachusetts Amherst)

💡 毒舌点评

这篇论文像一位严谨的实验员,用控制变量法系统地拆解了MAE在“中等规模”(非海量)生物声学数据上的表现,得出了几个清晰且有些反直觉的结论:在目标域上持续自监督预训练收益甚微,通用大音频预训练比域内小数据预训练更重要,数据清洗在有限规模下也作用有限。其价值在于为资源有限的研究者提供了明确的“避坑指南”和模型选择依据。然而,其短板也正在于这是一篇典型的“负面研究”或“消融研究”——它没有提出新方法,只是验证了已有方法的边界。核心结论几乎全部基于iNatSounds这一个数据集,缺乏对“为什么”的深入机制探讨,使得其洞察的普适性打了折扣。论文更像一份详尽的工程实验报告,而非一篇能推动新方法诞生的顶会论文。

📌 核心摘要

  1. 要解决什么问题:在弱标注(仅单标签)且规模相对有限(约137k训练样本)的生物声学数据集(iNatSounds)上,基于掩码自编码器(MAE)的自监督预训练是否有效?预训练数据的规模、领域特异性、质量以及不同的训练策略如何影响下游细粒度物种分类的性能?
  2. 方法核心是什么:采用标准的两阶段训练范式:首先在大规模未标注音频(AudioSet或iNatSounds)或混合数据上进行掩码频谱图重建的MAE自监督预训练;然后在有标签的iNatSounds数据集上进行线性探测或全参数微调,以系统评估预训练表征的质量。这是一个以消融实验为核心的研究框架。
  3. 与已有方法相比新在哪里:与先前在超大规模生物声学数据集(如BirdSet,音量是iNatSounds的5倍以上)或通用音频上验证MAE的工作不同,本文在一个相对“适度”且更接近许多实际应用场景的数据规模下,首次系统性地隔离并量化了“预训练数据规模”、“领域相关性”(通用音频 vs. 生物声学)、“持续预训练”、“数据混合比例”和“数据筛选”等因素对下游性能的影响,并与监督学习基线(ImageNet预训练ViT)进行了直接对比。
  4. 主要实验结果如何:
    • 线性探测(表2):所有MAE变体在冻结状态下表现极差(最佳Top-1准确率仅3.54%),远低于随机初始化微调的基线,表明掩码重建目标学到的特征无法线性分离物种。
    • 全参数微调(表3):从头随机初始化微调得到37.13% Top-1准确率。在AudioSet上预训练的MAE(AS-SSLrel)达到58.10%,在ImageNet上有监督预训练的ViT(IN-SL)达到57.69%,两者性能接近。仅在iNatSounds上进行MAE持续预训练(iNat-SSL)仅带来有限提升(47.53%)。最佳性能来自在更大规模生物声学数据(Xeno-Canto)上预训练的BirdMAE(62.76%)。在AS-SSL基础上继续在iNatSounds上进行MAE预训练(AS-SSLrel + iNat-SSL)仅带来约0.6个百分点的微小增益(58.10% -> 58.10%,原文表3显示为58.10% vs 58.10%?实际应为AS-SSLrel 57.54% vs AS-SSLrel+iNat 58.10%)。
    • 数据混合比例(表4):固定总批量大小下,增加AudioSet样本比例能持续、显著地提升性能(纯iNatSounds: 49.0% -> 纯AudioSet: 60.2%)。
    • 数据筛选(图4,图5):基于分类置信度筛选数据后,用更少数据训练的MobileNetV3性能下降有限(54.9% -> 53.4%),但用筛选后的数据进行MAE预训练再全量微调,性能未见提升,甚至低于使用全量数据预训练的基线(59.5%)。
  5. 实际意义是什么:为在有限标注生物声学数据下应用MAE提供了清晰的实践指南:优先使用在大规模通用音频或更大规模混合生物声学数据上预训练的现成模型(如AudioSet预训练的AudioMAE或BirdMAE),而不是在小规模目标域数据上从头开始或进行昂贵的持续自监督预训练;在当前中等规模下,数据清洗对提升MAE预训练效果的收益有限。
  6. 主要局限性是什么:研究局限于单一的中等规模生物声学数据集(iNatSounds)和单一的MAE架构(AudioMAE),结论的普适性未在更多数据集(如更大、更小或更干净/嘈杂的数据集)或不同模型(如其他SSL方法)上验证;对于“为何域内持续自监督预训练效果有限”缺乏深入的机制分析;实验主要围绕分类准确率展开,未探索MAE表征在其他下游任务(如检索、分割)上的潜力。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及模型权重链接。
  • 数据集:论文中提到了使用 AudioSetiNatSounds 数据集进行实验。AudioSet 被描述为通过“Hugging Face 版本”下载,但未给出具体 URL。iNatSounds 数据集来源于 iNaturalist 平台,但论文中同样未提供直接获取链接或具体版本信息。
  • Demo:论文中未提及。
  • 复现材料:论文中详细描述了部分实验设置,包括超参数(学习率、权重衰减、训练轮数)、模型架构(ViT-B)、掩码率、输入尺寸和硬件(NVIDIA A100 GPU)及大致训练时长,但未提供模型检查点、训练配置文件、完整的优化器设置或代码库等具体的可下载复现材料。
  • 论文中引用的开源项目:论文中提到了多个相关开源项目或平台,但未在正文中提供它们的具体代码仓库或项目主页链接。项目列表包括:Xeno-Canto, iNaturalist, AudioSet, BirdSet, iNatSounds, BirdMAE, AudioMAE, AVES, AVEX, Perch 2.0, BirdNet。

🏗️ 方法概述和架构

本文的核心方法是一个标准的两阶段学习流水线,其本身并非创新点,但研究框架旨在系统性评估该流水线在不同配置下的效果。

  1. 整体流程概述:流程分为预训练和下游适配两个阶段。预训练阶段:输入原始音频波形,将其转换为对数梅尔频谱图。对频谱图进行分块和随机掩码(遮掩80%的块),仅将剩余20%的可见块输入一个Transformer编码器。编码器输出潜在表示后,与可学习的掩码标记拼接,送入一个轻量级Transformer解码器。解码器旨在重建被掩码的原始频谱图块,训练目标是最小化被掩码块的均方误差(MSE)损失。预训练完成后,解码器被丢弃。下游适配阶段:将预训练好的编码器与一个新的线性分类头结合,在有标签的iNatSounds数据集上进行全参数微调(或冻结编码器进行线性探测),以完成物种分类任务。

  2. 主要组件/模块详解:

    • 音频预处理模块:
      • 功能:将变长的原始音频波形转换为固定尺寸的二维特征表示(频谱图),作为模型的输入。
      • 实现:采用短时傅里叶变换(STFT),窗口大小512,跳跃大小128。将50Hz到11.025kHz的频率映射到128个梅尔频带。每段录音被分割成重叠的3秒片段(步长1.5秒),最终得到尺寸为128×512×1的对数梅尔频谱图。
      • 输入/输出:输入原始音频波形,输出一系列对数梅尔频谱图片段。
    • 掩码操作:
      • 功能:为MAE预训练生成部分遮掩的输入视图,强制模型学习从局部信息重建整体。
      • 实现:将频谱图划分为非重叠的块(patch)。随机选择80%的块进行掩码(即从输入中移除),仅将剩余20%的可见块输入编码器。掩码操作在训练中动态进行。
      • 输入/输出:输入完整的频谱图块序列,输出一个包含掩码位置信息和可见块子集的视图。
    • 音频编码器(f_θ):
      • 功能:将可见的频谱图块映射为高维潜在表示(特征向量),是模型的核心特征提取器。
      • 实现:采用AudioMAE架构中的12层Vision Transformer(ViT-B)编码器。每个可见块被线性投影为一个向量,并添加位置编码后输入Transformer层进行自注意力计算。
      • 输入/输出:输入可见的频谱图块序列,输出每个可见块对应的潜在表示向量序列。
    • 轻量级解码器(d_ψ):
      • 功能:仅在预训练阶段使用,用于从编码器的输出和掩码标记中恢复被掩码块的像素值,是MAE重建目标的关键组件。
      • 实现:一个16层的Transformer解码器,使用了移位局部注意力(shifted local attention)以提高效率。它将编码器的输出(仅对应可见块)与代表所有掩码位置的可学习掩码标记(mask tokens)拼接,恢复原始块顺序,并预测所有块(包括可见块和掩码块)的像素值。重建目标为每个块独立归一化后的频谱图值。
      • 输入/输出:输入编码器的潜在表示和掩码标记,输出与输入频谱图同尺寸的重建频谱图。
    • MAE预训练目标:
      • 功能:驱动编码器和解码器学习能够捕捉音频内在结构的表征。
      • 实现:最小化被掩码块的重建损失,采用均方误差(MSE):$\mathcal{L}{\text{MAE}} = \frac{1}{|\mathcal{M}|} \sum{k \in \mathcal{M}} \left| \mathbf{p}_k - \hat{\mathbf{p}}_k \right|_2^2$,其中$\mathcal{M}$是掩码块集合,$\mathbf{p}_k$是原始块,$\hat{\mathbf{p}}_k$是重建块。损失仅在掩码块上计算,并采用块级归一化以稳定训练。
    • 下游任务头(h_ϕ):
      • 功能:将预训练编码器输出的表征转换为物种分类预测。
      • 实现:在微调时,编码器顶部附加一个线性分类层。训练目标是标准的交叉熵损失,用于单标签分类。
      • 输入/输出:输入编码器的输出特征(例如,使用[CLS] token的表征或对所有token进行全局平均池化),输出对应C个物种类别的logits。
  3. 组件间的数据流与交互:

    • 预训练流程:原始音频 $\rightarrow$ 频谱图 $\rightarrow$ 掩码操作 $\rightarrow$ 可见块 $\rightarrow$ 编码器 $\rightarrow$ 潜在表示 $\rightarrow$ 与掩码标记拼接 $\rightarrow$ 解码器 $\rightarrow$ 重建频谱图 $\rightarrow$ 计算MSE重建损失(仅在掩码块上)。
    • 微调流程:原始音频 $\rightarrow$ 频谱图(完整) $\rightarrow$ 编码器(使用预训练权重初始化) $\rightarrow$ 特征 $\rightarrow$ 分类头 $\rightarrow$ 类别预测 $\rightarrow$ 计算交叉熵分类损失。
    • 关键交互:预训练后,解码器及其参数被完全丢弃,不参与下游流程。微调时,编码器和分类头的参数共同更新。
  4. 关键设计选择及动机:

    • 采用MAE范式:直接借鉴MAE在计算机视觉和大规模音频任务上的成功,探索其在细粒度生物声学这一具有挑战性的特定领域的适用性边界。
    • 系统性对比多种预训练来源:这是本研究的核心设计意图。通过严格控制变量(如固定总批量大小),对比了通用音频(AudioSet)、目标域生物声学音频(iNatSounds)、混合数据,以及来自视觉领域的监督预训练(ImageNet),旨在剖析“预训练数据规模”、“领域相关性”和“预训练任务”各自对下游性能的贡献。
    • 评估线性探测和全参数微调:线性探测用于评估预训练表征的线性可分性(基础质量),全参数微调用于评估最终任务性能(适应能力),两者结合能更全面地判断预训练策略的有效性。
    • 进行数据筛选实验:动机是探究iNatSounds数据集中由于弱标注和滑动窗口裁剪可能导致的“空白”或“低信息量”音频片段,是否是MAE预训练在域内效果不佳的潜在原因。
  5. 架构图/流程图:

    • 论文提供了图1和表1作为架构和对比参考。
    • 图1:概述了整个研究流程。左侧是MAE预训练:输入音频被转换为频谱图,随机掩码80%的块后,仅20%的可见块被送入Transformer编码器,然后由Transformer解码器结合可学习的掩码标记尝试重建被掩码的原始频谱图块。右侧是下游任务适配:预训练好的编码器被用于在有标签数据集(iNatSounds)上通过添加分类头并微调整个网络,完成物种分类任务。图中文字点明了核心发现:预训练规模(来自更大、更多样的数据)比在目标域上进行持续预训练更重要。
    • 表1:将本文方法与其他生物声学模型在预训练方式(SSL/SL)、预训练数据域、物种数量、音频时长、评估基准等方面进行了对比,突出了本文在数据规模(中等)和评估设置(域内评估)上的特点。

💡 核心创新点

  1. 对“中等规模”生物声学数据下MAE有效性的系统性边界研究:不同于大多数在超大规模数据或通用音频上验证MAE的工作,本文将研究场景明确限定在更接近许多实际生态调查项目规模的iNatSounds数据集上,进行了全面的消融研究,填补了特定应用场景下评估的空白。
  2. 揭示“预训练数据规模”在有限域内自监督学习中的压倒性主导地位:通过严格控制变量的实验(如表4固定总批量大小改变数据混合比例),明确发现在iNatSounds这种规模下,使用更多、更多样的通用音频进行预训练,其收益远超在有限的目标域数据上进行持续自监督预训练。这挑战了“更强的领域特异性预训练必然更好”的简单假设。
  3. 质疑弱标注生物声学数据上数据筛选对MAE预训练的效用:实验表明,尽管通过置信度阈值筛选可以保留信息丰富的片段(用更少数据训练分类器性能下降有限),但这种“干净”数据并不能带来更好的MAE预训练效果。这暗示了在MAE预训练中,数据规模带来的收益可能比数据纯净度更重要,这对于生物声学社区可能是个好消息,意味着可以利用更嘈杂但更庞大的数据。
  4. 提供��晰的实践指导:论文的结论具有明确的工程价值——对于此类中等规模生物声学任务,应优先使用在大规模通用音频或更大规模混合数据上预训练的现成模型(如AudioSet预训练的AudioMAE或BirdMAE),而非从头开始或进行昂贵的域内自监督预训练。

📊 实验结果

论文围绕iNatSounds数据集的Top-1和Top-5准确率(类平均)展开了多组实验。

  1. 线性探测结果(表2) 评估冻结预训练表征的线性可分性。
方法iNat Val Top-1iNat Val Top-5iNat Test Top-1iNat Test Top-5
机会水平0.080.410.080.41
BirdMAE2.485.422.405.10
AudioMAE3.638.163.277.62
本文方法3.658.533.548.06

结论:所有MAE变体在线性探测下表现极差(Top-1 < 4%),远低于随机初始化的微调结果(37.13%),表明掩码重建目标本身学到的特征无法线性分离物种,需要大量任务特定适应。

  1. 全参数微调结果及预训练数据消融(表3) 核心结果,比较不同初始化/预训练策略在下游任务上的表现。
初始化来源是否在iNatSounds上继续预训练iNat Val Top-1iNat Val Top-5iNat Test Top-1iNat Test Top-5
IN-SL (ImageNet监督)58.7677.6257.6977.51
随机初始化38.0258.1937.1357.01
随机初始化是 (iNat-SSL)49.0368.6747.5368.11
AS-SSLrel (AudioSet MAE)58.6578.5357.5478.06
AS-SSLrel (AudioSet MAE)59.5178.6358.1078.65
BirdMAE (XC MAE)63.6182.7962.7682.58

结论:预训练带来显著提升(随机初始化 -> IN-SL/AS-SSL:约+20%)。AudioSet自监督预训练与ImageNet监督预训练性能接近。仅在iNatSounds上进行持续MAE预训练(iNat-SSL)收益有限(约+10%)。在AudioSet预训练基础上继续在iNatSounds上进行MAE预训练(AS-SSLrel -> AS-SSLrel+iNat-SSL)仅带来约0.6个百分点的微小增益(57.54% -> 58.10%)。使用更大规模生物声学数据预训练的BirdMAE性能最佳(62.76%)。

  1. 预训练数据混合比例消融(表4) 固定总批量大小,改变预训练时AudioSet与iNatSounds样本的采样比例。
数据组合 (AudioSet: iNat)iNat Val Top-1iNat Val Top-5
iNat-only49.068.7
1:153.874.7
3:157.577.4
7:159.478.9
15:160.180.3
AS-only60.280.2

结论:增加AudioSet数据的比例能持续、显著地提升下游性能(从49.0%到60.2%),表明在MAE预训练阶段,通用音频数据比生物声学数据更有效。

  1. 数据筛选实验(图4,图5) 探索两种筛选策略:基于分类置信度(图4)和基于重建损失(图5)。
  • 分类置信度筛选(图4):使用一个在全量iNatSounds上训练的ViT-B分类器计算片段置信度。设置阈值0.90可保留约50%的片段,用这些片段训练的MobileNetV3分类器准确率仅从54.9%降至54.1%(下降0.8%)。但用筛选后的数据进行MAE预训练,再在筛选数据或全量数据上微调,其Top-1准确率均未超过使用全量数据预训练并在全量数据上微调的基线(59.5%)。
  • 重建损失筛选(图5):使用预训练MAE编码器计算片段重建损失。该策略效果较差,即使保留90%的数据(丢弃10%),MobileNetV3准确率也显著下降至44.9%。MAE预训练实验也显示性能随数据减少而明显下降。

结论:基于置信度的筛选能保留信息性片段,但用筛选后的“干净”数据进行MAE预训练并不能提升最终微调性能,甚至可能因数据量减少而下降。这支持了“数据规模(即使带噪)优于数据纯净度”的论点。

🔬 细节详述

  • 训练数据:
    • 预训练:AudioSet(约1.86M个10秒片段,合并了平衡与不平衡训练集)、iNatSounds(约137k训练样本)。
    • 微调/评估:iNatSounds训练集(约137k样本,用于微调)、验证集(约45k样本)和测试集(约49k样本,仅评估,验证集和测试集均包含1,212个物种)。
    • 预处理:原始音频 -> STFT -> 对数梅尔频谱图(窗长512,跳跃128,128个梅尔频带,频率范围50Hz-11.025kHz)。每段音频被分割为重叠的3秒片段(步长1.5秒),输出形状为128×512×1。
  • 损失函数:
    • MAE预训练:$\mathcal{L}{\text{MAE}} = \frac{1}{|\mathcal{M}|} \sum{k \in \mathcal{M}} \left| \mathbf{p}_k - \hat{\mathbf{p}}_k \right|_2^2$,其中$\mathcal{M}$是掩码块集合,$\mathbf{p}_k$是被掩码的原始频谱图块,$\hat{\mathbf{p}}_k$是其重建值。损失仅在掩码块上计算,并对每个块独立归一化。
    • 下游微调:标准交叉熵损失,用于单标签分类。
  • 训练策略:
    • 优化器:未明确说明(通常为AdamW)。
    • 学习率:基础学习率$1 \times 10^{-3}$,权重衰减$1 \times 10^{-4}$。
    • 训练轮数:预训练和微调均训练100个epochs。
    • 其他超参数:批量大小、学习率调度策略(如warmup)未明确说明。
  • 关键超参数:
    • 编码器:12层ViT-B(AudioMAE架构)。
    • 解码器:16层Transformer解码器(使用移位局部注意力),仅在预训练中使用。
    • 掩码比例:80%。
    • 输入尺寸:128×512×1(频谱图)。
  • 训练硬件:所有实验在单个NVIDIA A100 GPU上进行。预训练耗时约24小时,微调耗时约16小时。
  • 推理细节:微调后的模型输入完整的3秒频谱图片段,输出物种分类预测。评估在“文件级别”进行,每个录音文件无论时长产生一个预测。但如何聚合一个文件中多个3秒片段的预测结果(如平均、投票)未明确说明。
  • 正则化或稳定训练技巧:MAE预训练采用块级归一化重建目标以稳定训练。其他技巧如Dropout、随机深度等未提及。

⚖️ 评分理由

  • 创新性:1.0/3 本文的创新性在于其系统性的评估框架和得到的具有实践指导意义的负面/反直觉结论,而非提出新的算法。它清晰地揭示了在中等规模生物声学数据上,MAE预训练的“规模法则”如何与“领域适配”产生矛盾。问题本身(有限数据下MAE的有效性)有实践意义,但方法完全是标准的MAE流水线,核心贡献是实验分析。与SOTA的区分度体现在对已有假设的挑战,而非性能或方法上的突破。
  • 技术严谨性:1.5/2 论文在实验设计上相当严谨,控制了变量(如数据总量、批量大小)进行对比,实验设置清晰。然而,存在一些可能影响严谨性的问题:1)未说明优化器类型、批量大小、学习率调度等关键训练细节;2)微调时如何聚合变长录音的多片段预测未说明,这是评估的关键一环;3)线性探测的极低结果缺乏更深入的机制分析;4)未提及代码或权重开源,严重影响可复现性验证。数学描述基本清晰但较简单。
  • 实验充分性:1.5/2 实验相对充分以支持其在中等规模设定下的主要结论。基线覆盖了随机初始化、监督预训练(ImageNet)、自监督预训练(AudioSet、BirdMAE)以及持续预训练。进行了数据比例、数据筛选等多个维度的消融实验。主要缺陷是:1)仅在一个中等规模数据集(iNatSounds)和一个基准模型(AudioMAE)上验证核心结论,缺乏对更大/更小/更干净/更嘈杂数据集或不同模型架构的验证,普适性存疑;2)缺乏对错误案例或失败模式的分析;3)没有进行统计显著性检验。
  • 清晰度:0.7/1 论文组织结构清晰,写作流畅,图表(尤其是表3、表4、图1、图4)有效地支撑了论点。问题在于一些关键技术细节缺失,如聚合预测的方法、完整的优化设置,这影响了完全的可复现性。符号和术语使用规范。
  • 影响力:0.5/1 对生物声学和资源受限下的音频预训练领域的实践者有直接的、实用的指导价值,帮助他们在模型选择上避免不必要的尝试。但其影响力主要局限于一个相对垂直的应用领域(中等规模细粒度音频分类),并且结论强烈依赖于“中等规模”这一前提,在大规模数据或其他任务上的影响力未得到证明。
  • 可复现性:0.3/1 论文提供了关键的超参数(学习率、权重衰减、训练轮数、掩码率、模型架构选择)和硬件信息,但遗漏了部分关键细节,如优化器类型、批量大小、学习率调度、多片段预测聚合策略。最关键的是,论文中未提及代码或模型权重的开源计划,这严重限制了可复现性,是重要的扣分项。

🚨 局限与问题

  1. 论文明确承认的局限:

    • 研究局限于“中等规模”的生物声学设置(iNatSounds),并指出“实际收益的出现可能需要更大的数据规模”。
    • 未来工作应探索更先进的迁移学习方法,如参数高效微调(PEFT)和原型学习。
    • 数据筛选的初步尝试未能提升预训练效果,作者推测“噪声但更多的数据可能比筛选过的但更少的数据更有益”。
  2. 审稿人发现的潜在问题:

    • 结论的普适性严重存疑:所有核心结论都基于iNatSounds这一个数据集和AudioMAE这一个架构。在其他生物声学数据集(如BirdSet,数据规模大得多且更干净)、或其他音频细粒度分类任务上,这些结论是否成立未经验证。例如,在大规模数据上,域内持续预训练是否可能变得有效?
    • 缺乏机制分析:论文发现域内持续自监督预训练收益有限,但并未深入分析其根本原因(例如,是目标域数据分布与重建目标不匹配?还是有限的域内数据不足以有效更新已学习于大规模通用数据的表示空间?或是梯度冲突?)。
    • 评估协议的完整性:对于变长音频输入,微调时如何聚合多个3秒片段的预测结果是关键细节,但文中未说明,这影响了结果的准确性和可复现性。
    • 对“成功”基线的讨论不足:论文发现ImageNet监督预训练(IN-SL)与AudioSet自监督预训练(AS-SSL)在iNatSounds上性能相近,但对“为什么在音频任务上,来自自然图像的监督预训练也能工作得如此好”这一有趣且可能有用的现象讨论不足。
    • 实验设计的潜在混淆:在评估数据筛选效果时(图4右),使用筛选后的数据进行预训练,但微调时又分别使用筛选数据或全量数据,两种设置的对比可能不够直接。理想的实验应保持预训练和微调数据一致,以纯粹评估筛选数据对预训练质量的影响。
    • 缺失的对比:未与近期其他在iNatSounds或类似数据集上有效的生物声学SSL方法(如基于对比学习的方法,或其他MAE变体)进行直接对比,难以定位本文所用MAE流水线的绝对性能水平。
    • 对结论强度的评估:论文声称“预训练规模比目标设计更重要”,但这一结论是在固定MAE架构和中等数据规模下得出的。在不同架构或数据规模下,这一结论可能不再成立,因此其普适性声明需要更谨慎的限定。

← 返回 2026-05-15 论文速递