仅仅通过一些 observations 来推断其分布是不合理的,我们试图利用大量相关的源域作为预训练。因此,我们希望保持源域的 diversity,同时适应目标的 appearance。我们在不引入任何附加参数的情况下,对目标域的几个例子采用预训练模型。最重要的是,我们在这个适应过程中对权重的变化进行了规范化,以便在拟合目标的同时,最好地保留源数据集的“信息”。我们通过对不同目标域的高质量生成结果来证明我们算法的有效性,包括那些样本极少(例如≤10)的结果。我们还分析了一些重要的因素,如样本的数量和源和目标域之间的差异。
在不引入额外参数的情况下,对预训练模型的权值进行调整。固定架构意味着没有必要对新参数(例如,参数的数量、它们的位置等)进行冗长的手工设计。相反,挑战在于如何调整权重以适应有限的目标域数据的外观,同时保持尽可能多的转移知识以及来自源的多样性。
需要注意的一个关键属性是,权重有不同的重要性级别; 因此,在适应或调优过程中, 每个参数都不应该被平等对待。我们建议量化每个参数的“重要性”,强调在调优过程中重要参数的保存。在 discriminative modeling setting 中,Kirkpatrick等人提出 Elastic Weight Consolidation (EWC),它通过估计其 Fisher 信息相对于客观可能性来评估每个参数的重要性。一个关键的区别是 the generative setting,训练的目标不是固定的。尽管如此,我们证明 Fisher Information 可以从一个代理目标 (一个冻结的 discriminator) 中估计出来,并且能够产生不同目标域的高质量结果,即使只有极少的样本(≤10)。
Few-shot learning. 有一些针对于 GAN 进行迁移微调的方法添加了额外的参数,我们接下来将证明这是多此一举的。
Style transfer.
Continuous learning. 由于我们的目标是将在源域上预训练的 GAN 模型适应到目标域,这自然是一个 sequentially learning 两个任务的过程,因此与持续学习有关。持续学习主要处理的是“灾难性遗忘”现象,即学习连续的任务而不忘记如何执行之前训练过的任务。还需要注意的是,在适应之后,我们不再能够在源域中生成数据。我们尝试不要忘记源域中的多样性,从而可以结合目标域中的 style 来生成更具有多样性的结果。
没有任何正则化直接去适应新领域的数据会导致过拟合。因此,剩下的问题是 (i)哪些权重是可以保留的重要权重,哪些是可以有更高的自由度去变化,以及(ii)如何量化这样一个重要因素,以便我们可以通过损失函数来正则化它们。下面我们将详细介绍我们对不同权重重要性的理解和建议的适应方法。
我们分析了在源和 target-adapted 模型之间生成器权值的变化率。我们使用 CelebA 数据集 [24](∼200k 图像)的真实人脸作为源域。 对于目标域,我们使用描绘风格化类人头部的表情符号面孔。 我们使用 Bitmoji API [11] 来收集 ∼80k 表情符号图像。 我们在图 2(左)中设计了一个五层 DCGAN [30] 网络(表示为生成器 G,与判别器 D 相关联)。我们首先对面部的生成模型进行预训练,然后在表情符号领域对其进行微调,两者都使用以下对抗损失[8]:
$$ \begin{equation}L_{a d v}=\min {G} \max {D} \mathcal{E}{x \sim p{d a t a}(x)}[\log D(x)]+\mathcal{E}{z \sim p{z}(z)}[\log (1-D(G(z)))]\end{equation} $$
pretrained G 和 adapted G‘,我们计算了每个 conv 层的权重平均变化率(我们省略了 bias 和其他在 normalization layers 中的参数):$\Delta=\frac{1}{N} \sum_{i} \frac{\left|\theta_{i}^{\prime}-\theta_{i}\right|}{\left|\theta_{i}\right|}$,其中N是参数的数量,$\theta_{i}\ and\ \theta_{i}^{\prime}$ 是 G 和 G’ 中的 i-th 参数。从图2 (中间) 所示的结果中,我们观察到网络最后一层的权值平均变化比其他早期层最小。在使用其他源-目标域对的其他GAN架构 (例如,LapGAN [4], StyleGAN[16]) 中也发现了类似的观察结果。这意味着如果我们用 few examples 进行适应,最后一层的一些权重比其他层的权重更重要,应该更好地保存。
已经确定了不同层的权重在适应时应该具有不同的正则化,所以下一个问题就是如何衡量这个权重的重要性。回想一下,在数学统计中, Fisher Information F 可以告诉我们如何根据观测值估计模型参数有多好[26]。给定源域上的预训练生成模型,通过给定网络参数 $θ_S$ 的学习值生成一定数量的数据 X,Fisher 信息 F 可以计算为:
$$ \begin{equation}F=\mathbb{E}\left[-\frac{\partial^{2}}{\partial \theta_{S}^{2}} \mathcal{L}\left(X \mid \theta_{S}\right)\right]\end{equation} $$