目录
全文参考:论文阅读笔记:Masked Autoencoders Are Scalable Vision Learners_塔_Tass的博客-CSDN博客
masked autoencoders(MAE)是hekaiming大佬又一新作,其做法很简单,就是随机mask掉一部分patches并重建这部分丢失的像素,可看作是一个可扩展的(scalable)自监督学习器,能极大加速模型的训练速度并提升准确率。下游迁移性能优于有监督预训练,并有良好的的scaling(可扩展性)。
一、介绍
mask autoencoders是一种更一般的去噪方式。
语言的信息密度更高,mask掉部分文字可能使得语义完全不同,这个任务会导致更复杂的语言理解;而图像的冗余度就很高,因此mask掉部分patch