bilibili_limu: https://www.bilibili.com/video/BV1sq4y1q77t

Notion 版本的笔记

假设你的算法特别快,就把标题里面放 efficient;假设你做的东西比较大,就叫 scalable。 —李沐

<aside> 💡 这里 Autoencoder 中的 Auto 不是指自动的意思,而是“自”,也就是训练样本 x 和标签 y 都是 x 本身。

</aside>

<aside> 💡 写论文的时候可以考虑用类似的标题样式,即 ** 是 **,就像这篇文章的标题,很好的将自己的工作浓缩成了一句简短的话。

</aside>

Abstract

本文表明,masked autoencoders (MAE) 是用于计算机视觉的可扩展自监督学习器。我们的 MAE 方法很 simple:我们屏蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先,我们开发了非对称的编码器 - 解码器架构,其中编码器仅对可见的补丁 patches 子集(没有掩码标记)进行操作,以及一个轻量级的解码器,可从潜在表征 latent representation 和掩码标记 mask tokens 重建原始图像。其次,我们发现屏蔽大部分输入图像(例如 75%)会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型:我们加速了训练(3 倍或更快)并提高了准确性。我们的可扩展方法允许学习泛化性良好的高容量模型:例如,在仅使用 ImageNet-1K 数据的方法中,vanilla ViT-Huge 模型实现了最佳准确率 (87.8%)。下游任务中的迁移 transfer 性能优于有监督的预训练,并显示出有希望的扩展行为。

MAE_fig1.PNG

<aside> 💡 在做下游任务的时候,只用到编码器。

</aside>

1. Introduction

掩码自动编码器的概念,即一种更通用的去噪自动编码器[48]的形式,是很自然的,并可以适用于计算机视觉。We ask: what makes masked autoencoding different between vision and language? 我们试图从以下几个方面来回答这个问题:

 **(i)** 直到最近,架构还是不同的。在视觉上,卷积网络[29]在过去十年中占主导地位。卷积通常在规则网格上运行,并不是直接集成“指标”,如 mask tokens [14]或 positional embeddings[47]到卷积网络。然而,这种架构上的差距已经被 ViT [16] 解决了,应该不再是一个障碍。

<aside> 💡 Bert 里将一个单词做 mask,在网络中最后可以还原出这个 mask token,但是用卷积的话,将多个像素做 mask,卷积窗口一直滑动是无法分清楚 mask 边界的,最后也不太好还原,所以作者说不能将 mask tokens 用在卷积网络里。

</aside>

**(ii)** **语言和视觉之间的信息密度不同**。 语言是人类生成的具有高度语义和信息密集度的信号。 当训练一个模型来预测每个句子的几个遗漏单词时,这个任务似乎会导致复杂的语言理解。 相反,图像是具有大量空间冗余的自然信号——例如,可以从相邻的补丁中恢复丢失的补丁,而对 parts、objects 和 scenes 的高级理解很少。 为了克服这种差异并鼓励学习有用的特征,我们展示了一个在计算机视觉中效果很好的简单策略: **屏蔽很大一部分的随机补丁**。 这种策略在很大程度上减少了冗余,并创建了一项具有挑战性的自监督任务,其需要获得超越 low-level image statistics 的整体理解。 请参见图 2-4 来对我们的重建任务有一个定性的认识。

MAE_fig2.PNG

**(iii)** 自动编码器的解码器将潜在的表示映射回输入,在重构文本和图像之间扮演着不同的角色。在视觉中,解码器重建像素,因此其输出的语义水平低于普通识别任务。这与语言相反,在语言中,解码器预测包含丰富语义信息的遗漏单词。虽然在BERT中解码器可以是微不足道的 (一个MLP) [14],但我们发现,对于图像, **解码器的设计在确定学到的潜在表示的语义级别方面起着关键作用**。

在此分析的推动下,我们提出了一种简单、有效且可扩展的掩码自编码器 (MAE) 形式,用于视觉表示学习。 我们的 MAE 从输入图像中屏蔽了随机补丁并重建像素空间中丢失的补丁。 它具有非对称编码器解码器设计。 我们的编码器仅对补丁的可见子集(没有掩码标记)进行操作,我们的解码器是轻量级的,可以从潜在表示和掩码标记中重建输入(图 1)。 在我们的非对称编码器-解码器中,将掩码标记转移到小型解码器会导致计算量大幅减少( 意指 encoder 并没有接收 masked token 为输入 )。 在这种设计下,非常高的掩码率(例如 75%)可以实现双赢:它优化了准确性,同时允许编码器仅处理一小部分(例如 25%)的补丁。 这可以将整体预训练时间减少 3 倍或更多,同样减少内存消耗,使我们能够轻松地将 MAE 扩展到大型模型。

我们的 MAE 学习了非常高容量的模型,可以很好地泛化。 通过 MAE 预训练,我们可以在 ImageNet-1K 上训练 ViT-Large/-Huge [16] 等需要大量数据的 data-hungry 模型,并提高泛化性能。 使用普通的 ViT-Huge 模型,我们在 ImageNet-1K 上微调时达到了 87.8% 的准确率。 这优于之前仅使用 ImageNet-1K 数据的所有结果。 我们还评估了对象检测、实例分割和语义分割的迁移学习。 在这些任务中,我们的预训练比其监督预训练获得了更好的结果,更重要的是,我们通过扩大模型观察到了显着的收益。 这些观察结果与 NLP 中自监督预训练 [14,40,41,4] 中的观察结果一致,我们希望它们能让我们的领域探索类似的轨迹。

<aside> 💡 作者用了两页来写了导言部分,一是因为用了几张图片(对于计算机视觉的论文亮出好结果是加分的),二是作者先提了问题,然后讲清楚了自己的动机,这很重要!

</aside>

2. Related Work