论文标题:The effectiveness of MAE pre-pretraining for billion-scale pretraining
论文链接:https://arxiv.org/pdf/2303.13496.pdf
作者姓名:Mannat Singh∗,† Quentin Duval∗ Kalyan Vasudev Alwala∗, etc
作者单位:Meta AI
本文重新审视了计算机视觉中用于视觉识别任务的标准预训练-然后微调范例。 通常,最先进的基础模型是使用具有数十亿图像的大规模(弱)监督数据集进行预训练的。 我们引入了一个额外的预训练阶段,该阶段很简单,并使用自我监督的 MAE 技术来初始化模型。 虽然 MAE 仅被证明可以随模型的大小进行缩放,但我们发现它也可以随训练数据集的大小进行缩放。 因此,我们基于 MAE 的预训练可根据模型和数据大小进行缩放,使其适用于训练基础模型。 预训练在一系列模型规模(数百万到数十亿个参数)和数据集大小(数百万到数十亿张图像)中持续改进模型收敛和下游传输性能。 我们测量了预训练对 10 种不同视觉识别任务的有效性,这些任务涵盖图像分类、视频识别、目标检测、low-shot分类和零样本识别。 我们最大的模型在 iNaturalist-18 (91.3%)、1-shot ImageNet-1k (62.1%) 和 Food-101 (96.0%) 上实现了新的最先进结果。 我们的研究表明,模型初始化起着重要作用,即使对于使用数十亿张图像进行网络规模的预训练也是如此。
正文完
可以使用微信扫码关注公众号(ID:xzluomor)