Masked Autoencoders Are Scalable Vision Learners

bilibili_limu: https://www.bilibili.com/video/BV1sq4y1q77t

假设你的算法特别快，就把标题里面放 efficient；假设你做的东西比较大，就叫 scalable。 —李沐

<aside> 💡 这里 Autoencoder 中的 Auto 不是指自动的意思，而是“自”，也就是训练样本 x 和标签 y 都是 x 本身。

</aside>

<aside> 💡 写论文的时候可以考虑用类似的标题样式，即 ** 是 **，就像这篇文章的标题，很好的将自己的工作浓缩成了一句简短的话。

</aside>

Abstract

本文表明，masked autoencoders (MAE) 是用于计算机视觉的可扩展自监督学习器。我们的 MAE 方法很 simple：我们屏蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先，我们开发了非对称的编码器 - 解码器架构，其中编码器仅对可见的补丁 patches 子集（没有掩码标记）进行操作，以及一个轻量级的解码器，可从潜在表征 latent representation 和掩码标记 mask tokens 重建原始图像。其次，我们发现屏蔽大部分输入图像（例如 75%）会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型：我们加速了训练（3 倍或更快）并提高了准确性。我们的可扩展方法允许学习泛化性良好的高容量模型：例如，在仅使用 ImageNet-1K 数据的方法中，vanilla ViT-Huge 模型实现了最佳准确率 (87.8%)。下游任务中的迁移 transfer 性能优于有监督的预训练，并显示出有希望的扩展行为。

<aside> 💡 在做下游任务的时候，只用到编码器。

</aside>

1. Introduction

掩码自动编码器的概念，即一种更通用的去噪自动编码器[48]的形式，是很自然的，并可以适用于计算机视觉。We ask: what makes masked autoencoding different between vision and language? 我们试图从以下几个方面来回答这个问题：

 **(i)** 直到最近，架构还是不同的。在视觉上，卷积网络[29]在过去十年中占主导地位。卷积通常在规则网格上运行，并不是直接集成“指标”，如 mask tokens [14]或 positional embeddings[47]到卷积网络。然而，这种架构上的差距已经被 ViT [16] 解决了，应该不再是一个障碍。

<aside> 💡 Bert 里将一个单词做 mask，在网络中最后可以还原出这个 mask token，但是用卷积的话，将多个像素做 mask，卷积窗口一直滑动是无法分清楚 mask 边界的，最后也不太好还原，所以作者说不能将 mask tokens 用在卷积网络里。

</aside>

**(ii)** **语言和视觉之间的信息密度不同**。 语言是人类生成的具有高度语义和信息密集度的信号。 当训练一个模型来预测每个句子的几个遗漏单词时，这个任务似乎会导致复杂的语言理解。 相反，图像是具有大量空间冗余的自然信号——例如，可以从相邻的补丁中恢复丢失的补丁，而对 parts、objects 和 scenes 的高级理解很少。 为了克服这种差异并鼓励学习有用的特征，我们展示了一个在计算机视觉中效果很好的简单策略： **屏蔽很大一部分的随机补丁**。 这种策略在很大程度上减少了冗余，并创建了一项具有挑战性的自监督任务，其需要获得超越 low-level image statistics 的整体理解。 请参见图 2-4 来对我们的重建任务有一个定性的认识。

**(iii)** 自动编码器的解码器将潜在的表示映射回输入，在重构文本和图像之间扮演着不同的角色。在视觉中，解码器重建像素，因此其输出的语义水平低于普通识别任务。这与语言相反，在语言中，解码器预测包含丰富语义信息的遗漏单词。虽然在BERT中解码器可以是微不足道的 (一个MLP) [14]，但我们发现，对于图像， **解码器的设计在确定学到的潜在表示的语义级别方面起着关键作用**。

在此分析的推动下，我们提出了一种简单、有效且可扩展的掩码自编码器 (MAE) 形式，用于视觉表示学习。我们的 MAE 从输入图像中屏蔽了随机补丁并重建像素空间中丢失的补丁。它具有非对称编码器解码器设计。我们的编码器仅对补丁的可见子集（没有掩码标记）进行操作，我们的解码器是轻量级的，可以从潜在表示和掩码标记中重建输入（图 1）。在我们的非对称编码器-解码器中，将掩码标记转移到小型解码器会导致计算量大幅减少（ 意指 encoder 并没有接收 masked token 为输入 ）。在这种设计下，非常高的掩码率（例如 75%）可以实现双赢：它优化了准确性，同时允许编码器仅处理一小部分（例如 25%）的补丁。这可以将整体预训练时间减少 3 倍或更多，同样减少内存消耗，使我们能够轻松地将 MAE 扩展到大型模型。

我们的 MAE 学习了非常高容量的模型，可以很好地泛化。通过 MAE 预训练，我们可以在 ImageNet-1K 上训练 ViT-Large/-Huge [16] 等需要大量数据的 data-hungry 模型，并提高泛化性能。使用普通的 ViT-Huge 模型，我们在 ImageNet-1K 上微调时达到了 87.8% 的准确率。这优于之前仅使用 ImageNet-1K 数据的所有结果。我们还评估了对象检测、实例分割和语义分割的迁移学习。在这些任务中，我们的预训练比其监督预训练获得了更好的结果，更重要的是，我们通过扩大模型观察到了显着的收益。这些观察结果与 NLP 中自监督预训练 [14,40,41,4] 中的观察结果一致，我们希望它们能让我们的领域探索类似的轨迹。

<aside> 💡 作者用了两页来写了导言部分，一是因为用了几张图片（对于计算机视觉的论文亮出好结果是加分的），二是作者先提了问题，然后讲清楚了自己的动机，这很重要！

</aside>

Abstract

1. Introduction

2. Related Work