论文简翻

📑 原始论文：Exemplar-Based High-Resolution Portrait Style Transfer, https://arxiv.org/abs/2203.13248
🌊 项目地址：DualStyleGAN - Official PyTorch Implementation, https://github.com/williamyang1991/DualStyleGAN

摘要| Abstract

近期，在学习 StyleGAN 的过程中我们发现，StyleGAN 只通过有限数据的训练学习，就能够在人脸艺术肖像风格迁移（下称 人脸风格化 或 人像风格转移）中表现得很出色。

在本文中，我们通过引入一种名为 DualStyleGAN （基于双路风格生成网络）的这种新颖技术来探索更具挑战性的基于样本的高分辨率人脸风格化，可以灵活控制原始人脸和艺术肖像方面的双重风格。

不同于 StyleGAN，DualStyleGAN 分别通过内在风格路径和新的外在风格路径来表征图像内容和某张艺术画的风格( Style )，以此来提供更自然的风格迁移方法。精心设计的外在风格路径使我们的模型能够分层调整颜色和复杂的 结构风格，从而精确地贴合给出的风格。
此外，我们还引入了一种渐进式微调方案，可以在对网络架构进行上述修改之后，还可以将模型的生成空间平滑地转换到目标风格上。

实验证明， DualStyleGAN 在高质量的人像风格迁移和灵活的风格控制方面优于目前其他的先进方法。

引言| Introduction

艺术肖像在我们的日常生活中很受欢迎，尤其是在与漫画、动画、海报和广告相关的行业中。在本文中，我们着眼于 基于样本的肖像风格迁移。
该问题的核心在于将已有的艺术肖像画（样本）的风格（Style）迁移到目标人脸上。其潜在应用很足够吸引人，它允许任何新手根据他们喜欢的艺术作品的风格轻松地将自己的照片调整为相应风格的样子。而在以往，这需要在修图方面有一定专业水平人进行稍长时间的手动修整。

如今，基于图像风格转换 ^[1-3] 和图像到图像（image-to-image^[4-6]）转换的自动人像风格转换已得到了广泛研究。而目前最先进的人脸生成器 StyleGAN^{[7, 8]} 在通过迁移学习^[9] 生成高分辨率艺术肖像方面非常有前途。
具体来说，StyleGAN 可以进行有效微调（fine-tune），通常只需要数百张人像图像和数小时的训练时间，即可将其生成空间从人脸域转化为艺术画域。与图像风格转换和图像到图像转换模型相比，它在质量、图像分辨率、数据要求和效率方面表现出极大的优势。

上述策略虽然有效，但只能学习分布的整体转换，无法处理基于样本的风格迁移。对于为生成固定漫画风格而迁移的 StyleGAN，一张带有笑脸的人像图将主要映射到漫画域中最邻近的一张人脸上，即嘴巴很夸张的画上。比如用户无法通过缩小自己的面部大小来贴合他们喜欢的艺术画。

尽管 StyleGAN 通过潜在编码交换^{[10, 11]} 提供了固定的基于样本的单域风格混合，但这种面向单域的操作对于涉及源域和目标域的风格转换是违反直觉且无用的。这是因为这两个域之间的不对齐问题可能导致在风格混合过程中出现不需要的伪影，尤其是对于特定域的结构。然而，重要的是，专业的风格模仿应该模仿艺术家如何处理面部结构，例如卡通( cartoon )中的抽象风格和讽刺漫画( caricatures )中的夸张形变。

为了应对这些挑战，我们提出 DualStyleGAN 以实现对基于样本的肖像风格迁移的双路风格的有效建模和控制。
DualStyleGAN 保留了 StyleGAN 的内在风格路径（intrinsic style path）来控制原始域的风格样式，同时额外增加了一条外在风格路径（extrinsic style path）用于建模和控制目标扩展域的风格样式，从而更加自然丝滑地贴合标准风格迁移模型中的内容路径（content path）和样式路径（style path）。
此外，外部风格路径继承了 StyleGAN 的分层架构，通过调制 粗分辨率层 中的结构风格样式（structural style）和 精分辨率层 中的颜色风格样式，实现灵活的多级风格操纵。

向原始 StyleGAN 架构添加外部风格路径对于我们的任务而言并非易事，因为它有可能改变预训练 StyleGAN 模型的生成空间和行为。为了克服这一挑战，我们提出了如下的方法：设计外在风格路径和训练 DualStyleGAN 模型。

模型设计：基于对 StyleGAN 微调行为的分析，我们认为将外在样式以残差方式引入卷积层，可以很好地理解微调如何影响 StyleGAN 的卷积层。我们的实验表明，这种设计使得 DualStyleGAN 能够有效地调节关键的结构样式。
模型训练：我们引入了一种新型的渐进式微调方法。
- 首先精心初始化外部风格路径，以便 DualStyleGAN 保留 StyleGAN 的生成空间以进行无缝迁移学习。
- 然后，使用简单的风格迁移任务训练 DualStyleGAN，之后再逐渐增加任务难度，逐步将其生成空间转换到目标域。
- 此外，我们提出了一种面部去风格化方法（destylization）来提供人脸-画像对（face-portrait pairs），作为监督来促进模型学习多样化的风格并避免模式崩溃。

通过上述创新策略，所得到的 DualStyleGAN 得以提供高质量和高分辨率的图像融合，并提供了对颜色风格和复杂结构风格样式的灵活控制。总而言之，我们的贡献有三方面：

我们提出了一种新的 DualStyleGAN 来表征和控制内在和外在风格，以进行基于样本的高分辨率肖像风格迁移。只需要数百个风格样本，就可以生成高质量的、优于目前最先进的方法性能的、丰富多样的艺术画。
我们设计了一个合理的外部风格路径，通过微调从外部域引入风格特征，并在颜色和结构方面提供分层样式操作。
我们提出了一种新的渐进式微调方案，用于在具有架构修改的网络上进行稳健（鲁棒）的迁移学习。

参考文献：
🎲图像风格转换的相关论文
[1] Chuan Li and Michael Wand. Combining markov random fields and convolutional neural networks for image synthesis. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 2479–2486, 2016.
[2] Jing Liao, Yuan Yao, Lu Yuan, Gang Hua, and Sing Bing Kang. Visual atribute transfer through deep image analogy. ACM Transactions on Graphics, 36(4):120, 2017.
[3] Ahmed Selim, Mohamed Elgharib, and Linda Doyle. Painting style transfer for head portraits using convolutional neural networks. ACM Transactions on Graphics, 35(4):1–18, 2016.
🎲Image-to-Image的相关论文
[4] Min Jin Chong and David Forsyth. GANs N’ Roses: Stable, controllable, diverse image to image translation. arXiv preprint arXiv:2106.06561, 2021.
[5] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwang Hee Lee. U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation. In Proc. Int’l Conf. Learning Representations, 2019.
[6] Bing Li, Yuanlue Zhu, Yitong Wang, Chia-Wen Lin, Bernard Ghanem, and Linlin Shen. AniGAN: Style-guided generative adversarial networks for unsupervised anime face generation. IEEE Transactions on Multimedia, 2021.
🎲StyleGAN的相关论文
[7] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 4401–4410, 2019.
[8] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 8110–8119, 2020.
💦迁移学习
[9] Justin NM Pinkney and Doron Adler. Resolution dependent gan interpolation for controllable image synthesis between domains. arXiv preprint arXiv:2010.05334, 2020.
💦潜在编码交换
[10] Rameen Abdal, Yipeng Qin, and Peter Wonka. Image2stylegan: How to embed images into the stylegan latent space? In Proc. Int’l Conf. Computer Vision, pages 4432– 4441, 2019.
[11] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 4401–4410, 2019.

通过 StyleGAN 实现图画生成

StyleGAN 能通过分层风格控制合成高分辨率人脸图像。 Pinkney 和 Adler 在有限的卡通数据上对 StyleGAN 进行了微调^[9]，发现它很有希望生成可观的卡通人脸图像。
由于原始模型和微调模型表现出了合理的语义对准度^[12]，所以可以通过将原始模型中嵌入的潜在编码应用于微调模型中，实现对真实人脸进行卡通化( Toonify )，获得相应的风格脸。
得益于该框架的高效性和数据友好性，吸引了大批研究员对其进行进一步的深入研究，例如嵌入加速（embedding acceleration^[13]）、更好地选择潜在编码（latent code^[14]）、在极其有限的数据上进行训练^{[15, 16]}。

与我们的研究工作相反，以上方法都只学习整体分布转换，没有基于样本的风格控制。
Kwong等人^[17]在模型对齐的假设下，通过将样本风格图像中的精细分辨率层特征与内容图像中的精细分辨率层特征进行交换来实现风格迁移。因此，该方法主要适用于颜色迁移，在控制重要的结构风格样式方面效果不佳。相比之下，我们的模型有一个明确的外在风格路径，可以有条件地训练以表征结构风格。此外，能通过面部去风格化实现对学习不同风格的监督。

参考文献：
💦语义对齐
[12] Zongze Wu, Yotam Nitzan, Eli Shechtman, and Dani Lischinski. StyleAlign: Analysis and applications of aligned stylegan models. arXiv preprint arXiv:2110.11323, 2021.
💦嵌入加速
[13] Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in 9 style: a stylegan encoder for image-to-image translation. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2021.
💦潜在编码
[14] Guoxian Song, Linjie Luo, Jing Liu, Wan-Chun Ma, Chunpong Lai, Chuanxia Zheng, and Tat-Jen Cham. Agilegan: stylizing portraits by inversion-consistent transfer learning. ACM Transactions on Graphics, 40(4):1–13, 2021.
💦有限数据训练
[15] Liming Jiang, Bo Dai, Wayne Wu, and Chen Change Loy. Deceive D: Adaptive pseudo augmentation for gan training with limited data. In Advances in Neural Information Processing Systems, 2021.
[16] Utkarsh Ojha, Yijun Li, Jingwan Lu, Alexei A Efros, Yong Jae Lee, Eli Shechtman, and Richard Zhang. Fewshot image generation via cross-domain correspondence. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 10743–10752, 2021.
💦交换分辨率层特征实现风格迁移
[17] Sam Kwong, Jialu Huang, and Jing Liao. Unsupervised image-to-image translation via pre-trained stylegan2 network. IEEE Transactions on Multimedia, 2021.

图到图转换 img2img

肖像风格转换还可以通过图像到图像的转换框架^[18-21]来实现，其主要思想是学习面部和艺术肖像领域之间的双向映射。

为了找到外观差异较大的域之间的对应关系，
U-GAT-IT ^[5]使用注意力模块来关注域之间共享的关键区域；
AniGAN ^[6]在判别器中使用共享层来提取两个域的共同特征；
GNR ^[4]学习有效的内容特征和风格特征，分别作为在数据增强期间未改变或已改变的特征。
对于讽刺漫画风格，则通过精确的图像扭曲（Image Warping）来模仿明显的面部变形。

这些策略允许图像到图像的转换框架对涉及剧烈变形的人脸进行风格化。然而，从头开始学习复杂的双向转换使得这个框架仅限于低分辨率图像并且需要很长的训练时间。我们的方法遵循 StyleGAN 的微调框架，它可以高效地生成高分辨率肖像，并提供灵活的分层风格控制，性能还优于上述的方法。

参考文献：
🎲img2img框架
[18] Ori Nizan and Ayellet Tal. Breaking the cycle-colleagues are all you need. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 7860–7869, 2020.
[19] Xuning Shao and Weidong Zhang. SPatchGAN: A statistical feature based discriminator for unsupervised image-to-image translation. In Proc. Int’l Conf. Computer Vision, 2021.
[20] Shaoan Xie, Mingming Gong, Yanwu Xu, and Kun Zhang. Unaligned image-to-image translation by learning to reweight. In Proc. Int’l Conf. Computer Vision, pages 14174–14184, 2021.
[21] Yihao Zhao, Ruihai Wu, and Hao Dong. Unpaired imageto-image translation using adversarial consistency loss. In Proc. European Conf. Computer Vision, pages 800–815. Springer, 2020.

DualStyleGAN实现迁移

我们的目标是基于预训练的 StyleGAN 构建 DualStyleGAN，可以用于转移到一个新的空间中，还可以表征原始域和扩展域的风格。无条件微调将 StyleGAN 生成空间作为一个整体进行翻译，导致所捕获风格的多样性丧失。我们的关键思想是寻求有效的监督来学习不同的风格（第 3.1 节），并且使用两个单独的样式路径（第 3.2 节）显式地对两种样式进行建模。我们使用有原则的渐进式策略来训练 DualStyleGAN，以实现稳健的条件微调（第 3.3 节）

面部去风格化

面部去风格化旨在从艺术肖像中恢复逼真的面部，以形成锚定的面部肖像对作为监督。给定目标域的艺术肖像，我们希望在人脸域中找到它们的合理对应物。由于这两个领域可能有很大的外观差异，这给我们带来了一个不小的挑战，即在面部真实感和肖像保真度之间取得平衡。
为了逐步增强肖像真实感的方法解决这个问题，我们提出了一种多阶段去风格化方法来逐渐增强肖像的真实感。

第一阶段：潜在初始化

首先，人脸风格画 $S$ 通过编码器（encoder） $E$ 嵌入到 StyleGAN 的潜在空间中，这里我们使用的是 $pSp$ 编码器^[22] 并对其进行修改，将 FFHQ 人脸数据集嵌入到 $\mathcal Z+$ 空间中，该空间比原始的 $\mathcal W+$ 空间更能抵抗与面部无关的背景细节和扭曲的形状。

当我们对使用 FFHQ 训练的 StyleGAN 输入风格画 $S$ 之后，再用生成器 $G$ 对其进行重建得到 $G(z^+_e)$ ，其色彩风格和结构风格得到了很好的捕捉。其中， $z^+_e=E(S)\in\mathbb R^{18\times 512}$ .

第二阶段：潜在优化

在 [9] 中，通过优化 $G$ 的潜在编码来重建图像 [1]，并将该编码应用于微调的模型 $G'$ ，从而对人脸图像进行风格化。
我们采取相反的步骤来优化 $G'$ 的潜在 $z^+$ ，用新的正则化项重建 $S$ ，并将得到的 $\hat{z}^+_e$ 应用到 $G$ 中以获得其非风格化版本。

$\begin{aligned} \hat{z}^+_e=\arg\min_{z^+}\mathcal{L}_{perc}(G'(z^+),S)+\lambda_{ID}\mathcal{L}_{ID}(G'(z^+),S)+||\sigma(z^+)||_1 \end{aligned}$

其中 $\mathcal L_{perc}$ 是感知损失 [23]， $\mathcal L_{ID}$ 是保持面部恒等性的恒等性损失 [24]， $σ(z^+)$ 是 $z^+$ 中 18 个不同 512 维向量的标准差。 $λ_{ID} = 0.1$ 。

第二阶段：图像嵌入

最后，我们将 $\hat{z}^+_e$ 嵌入为 $z_i^+=E(G(z^+_e))$ ，这进一步消除了不真实的面部细节。得到的 $G(z^+_i)$ 具有合理的面部结构，为如何变形和抽象面部结构以模仿 $S$ 提供了有效的监督。

参考文献：
🎲pSp编码器
[22] Ori Nizan and Ayellet Tal. Breaking the cycle-colleagues are all you need. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 7860–7869, 2020.
项目地址：https://github.com/eladrich/pixel2style2pixel
感知损失和恒等损失
[23] Justin Johnson, Alexandre Alahi, and Fei Fei Li. Perceptual losses for real-time style transfer and super-resolution. In Proc. European Conf. Computer Vision, pages 694–711. Springer, 2016.
[24] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pages 4690–4699, 2019.

构建DualStyleGAN网络

DualStyleGAN的生成器 $G$ 部分主要如图\ref{fig:3-1}所示，内部风格路径和生成网络构成了标准StyleGAN结构。
内部风格编码（其实就是StyleGAN中的潜在编码）主要来源于真实人脸图像 $I$ 经过编码器 $E$ 得到的潜在编码 $\mathbf z^+=E(I)$ 、随机的高斯噪声 $\mathbf z\in \mathbb R^{1\times512}$ 或者某种已知的人脸潜在编码 $\mathbf z_i^+$ 。