论文阅读-人脸老化-Generative_Adversarial_Style_Transfer_Networks_for_Face_Aging

一个人10后会长什么样？
10年前他又是什么样？
这就是人脸老化(face aging)问题：给定一张人脸图像，给出其x年后的人脸图像，x可以为负数，此时即表示年轻化。

关于这个问题，这篇论文提供了一个新的视角：

对于一张包含人脸的图像，将其所对应的年龄看作是其潜在的风格(underlying style),把人脸老化看成是一个风格迁移问题。

是不是有点耳目一新的感觉？感觉风格迁移的做法啥任务都用来做了。
先来张图一睹为快：
results_1

掌握上面那一句，其实已经掌握了这篇论文的大半了，且看下文一一分解。

1. methods

网络架构主要用的CycleGAN，在其基础上进行了loss函数的魔改。
而且提出了两个网络Group-GAN、FA-GAN，从最终的实验效果来看，其中Group-GAN对年龄跨度大的转换效果较好，FA-GAN则相反，偏向于年龄跨度小的转换。

1.1. Group-GAN(Group based CycleGAN method)

论文中用CycleGAN来训练两组年龄组之间的年龄迁移。
首先，按下面四个年龄组来分类数据集：

A) ages 00-20    B) ages 20-40  
C) ages 40-60    D) ages 60+   

对于每两个年龄组，作者都训练了一个CycleGAN进行迁移，一共要训练$C_4^2=6$个模型。所用loss为：
loss_Group-GAN

式中， λ 值为10.每个模型的训练时间24h左右，值得一提的是，虽然训练过程较稳定，但毕竟是GAN，训练过程很容易陷入mode collapse，作者还是有几次要重新训练的。
以及，当两个年龄组相差较大，即数据特征理论上来说分开的更好的时候，比如训练A组和D组年龄组的数据，模型又有把背景颜色翻转的趋势……为此作者又额外加了个weak L1 loss：
weak_L1_loss

这个模型的人脸老化效果图如下：
Group-GAN face aging results

可以看到，第一列的输入和最后一列的输出都有较为明显的年龄特征，第二列就有点不辩牛马了～～
其实这里还有一个问题，论文中没提到，可能是作者有意略过的：

从年轻的人脸老化到年老的人脸，如果20岁左右人脸大小定型了之后的话，那么效果还好。  
但对于第三行，是从一个几岁的儿童的人脸进行老化，但是儿童在长大的过程中，
不光是面部纹理的变化，其脸也会变大……如果只是增加面部纹理的话，
那么看起来就像是第三行最后一列一样，怎么看怎么像侏儒了……  
（TODO）

而同时，得益于CycleGAN的 Cycle，这个模型还能实现人脸年轻化(rejuvenation)，效果如下：
Group-GAN rejuvenation results

仔细观察的话，会感觉这两张效果图的前两列怎么好像没啥区别一样？
带着这个疑问，作者又设计了更细粒度的年龄组进行训练，来测试Group-GAN在小年龄段之间的效果到底如何。小年龄段的年龄分组信息如下：

A) ages 30-40    B) ages 40-50  
C) ages 50-60    D) ages 60-70     

同样操作训练之后，效果图如下图所示：
Group-GAN_results_with_smaller_age_groups

可以看到，效果是不尽如人意的。
作者为此argue：
模型本身是要学习两个年龄组的图像的不同之处，而年龄相近的年龄组，其不同之处本就较难检测。

1.2. FA-GAN(Face Aging GAN)

当然了，如果只是Group-GAN的话，大家可能会觉得有点被耍猴：
不是年龄老化吗？咋不能指定年龄？只能指定年龄组？
这就是作者提出的FA-GAN了：
给定一张人脸图像$x_0$和一个数字k，输出经过k年变化的同一张人脸
其中数字k可以为负，即年轻化(rejuvenation)。
而为了让模型能够考虑年龄k，作者先假设能够有个可导的年龄估算器$age(x)$，然后加上了平均绝对误差作为年龄的loss：
Loss_age

那么问题来了： 怎么保证人脸是同一个人呢？
没错，又是CycleGAN。一个老化k年后的人脸，再年轻化k年，所得到的应该和输入的人脸是相同的，也就引入了loss：
Loss_cycleGAN

最后，整体的loss为：
total_loss_FA-GAN

值得一提的是，作者考虑到老化一张年轻人的人脸和老化一张老人的人脸，显然这两者的操作是不同的。
比如同样過了10年，20岁的人到了30岁，和50岁的人到了60岁，显然20岁的人要变化更大。
因此，在输入图像的同时，还同时输入了该图像的估算后的年龄。流程图如下：
diagram_of_FA-GAN

关于patchGAN，我在之前的pix2pix 博文里提到过，就是discriminator关注的不是整张图像，而是$N×N$的patches，具体可以参考我的这一篇博文：pix2pix。

同时，作者预实验过程中，发现年龄老化、年轻化分开训练的话效果更好，即$G_{+}(x_0,k)={\hat{x}}_k$做老化, $G_{-}(x_0,k)={\hat{x}}_{-k}$做年轻化。
注意到k是从集合{0, 10, 20, 30, 40}中抽取的，其实这也不可苛责，毕竟不说生成年龄人脸了，现在的年龄预测模型都有个几年的误差呢。还要啥自行车，对不对～
最后的效果图如下：
FA-GAN_results

每一行的绿框框住的一张图像是输入图像，往左是年轻化的输出，往右是老化的输出。
效果嘛，只能说还算凑合吧～～（~~说实话，就这么几组图像，我个人也怀疑是cherry-pick的……~~）

1.3. F-GAN

根据前面的效果图，作者认为FA-GAN在年龄跨度小的时候效果较好，而Group-GAN在年龄跨度更大的时候效果较好。
于是乎搞了个融合模型F-GAN，当年龄跨度小于20的时候，就用FA-GAN，大于20的时候就用Group-GAN。

2. results

这个结果，因为目前也并没有稳定可靠的关于图像年龄的评测标准，所以论文里采用了一个朴素的方法：
人工评测～
示意图如下：
survey_sample

用调查问卷的方式，让被测者来给生成图像的可信度打分，然后用得分的平均值来衡量模型的好坏～～
和别的模型的一个对比图示意如下：
comparison_results

然后据此认为效果更好，说：

We quantitatively evaluate our proposed method through a user study and show that it outperforms prior state-of-the-art techniques for face aging.

emmmm…,你说怎样就怎样啦～～

3. ends

以上，致礼～

微信公众号：璇珠杂俎(也可搜索oukohou)，提供本站优质非技术博文～～

regards.