MAE通过随机遮挡和重构输入图像块进行自监督学习,而对比学习对同一个样本的不同视图进行自监督学习。结合这两个自监督方法,本文提出了ViC-MAE,一个将MAE提取的遮挡后局部特征与全局特征进行无标签视频自监督学习的方法。通过实验,作者证明ViC-MAE能够在视频、图像两个任务上取得领先的分类性能:在Imagenet-1K数据集上提升1.58%Top-1精确度,在Kinetics-400数据集上得到81.5%Top-1精确度。
标题:Visual Representation Learning from Unlabeled Video using Contrastive Masked Autoencoders
论文:https://arxiv.org/pdf/2303.12001.pdf
作者:Jefferson Hernandez, Ruben Villegas, Vicente Ordonez
正文完
可以使用微信扫码关注公众号(ID:xzluomor)