鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI看着这样一张抽象的人脸素描,你能猜出真人长什么样吗?
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5Gvdm3kXic4FlA6DFnT59U3FhYdmdutpLibFH8uicb2552l4fPjHAePKxtI0zw/640?wx_fmt=png)
现在,有一只GAN,不仅能够完美突破次元壁,复现真实人脸:
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmPm8cMQSibIM5XfUua2dVt7NAliaWzkRicuWMHA9OGVW7mSV8UFQoSdejQ/640?wx_fmt=png)
△左:素描;右:CSAGAN生成
甚至不画嘴,也不会生成无嘴怪人。效果真实,画面高清,连脸上的皱纹,都刻画得清清楚楚。
![](https://mmbiz.qpic.cn/mmbiz_jpg/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmL2ogueuIibbDYmjZfWQLhQgAibdV67tE1rlUXpDqBDqs1yK9rh4IT2KA/640?wx_fmt=jpeg)
相比之下,Pix2pix这样的著名选手黯然失色。困难模式下简直AV画质。
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmcZasBicgocwtiazLVDCF6mib9SPDkic3tzjic6Oia1LKX4dmJNDicc7YvH3xQ/640?wx_fmt=png)
制造如此神奇魔法的GAN,名叫CSAGAN,即有条件的自注意力机制生成对抗网络(conditional self-attention generative adversarial network)。诞生于中科大类脑智能技术及应用国家工程实验室。
世上的GAN千千万,CSAGAN为什么这么秀?
两大秘诀CSAGAN的独特之处,是在保持面部结构不确实的同时,生成高质量的人脸图像。
首先立功的,是条件自注意力模块(CSAM)。
在模型框架中,研究人员采用了掩码残差单元(MRU),并在最后一个MRU之前加入了条件自注意力模块。
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmqNPe6o0cvn7Oibb46dk8Ybf3qvuLQEOVIibGYT4G75XpIa5OSaIpYnXQ/640?wx_fmt=png)
条件自注意力机制能够建模人脸不同区域之间的长期依赖关系,也就是说,即使素描图里没画清楚鼻子嘴巴,CSAGAN一样能生成五官齐全的一张脸。
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmntFYRxqylp59Px482icEdk4c2HthTIZXaPsw0HgrZqR8HHQwlD6gylA/640?wx_fmt=png)
MRU和条件自注意力模块的输入是处理过的黑白线条图。
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmvRdZMuAktw97w8utmRRnMRabiaicQeye6964GTrAvvIKdHqianVUlatoQ/640?wx_fmt=png)
△稀疏线条图的密集距离场表示给定来自上一层的线条图和特征图,条件自注意力模块会以自注意力机制计算输出新的特征图。
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5GvdmiarRCHnbTPmdOhJicibGpu1LkGLTpbY8npnQ7BeXEb1phE3UvxC8fGyDA/640?wx_fmt=png)
而另一个秘诀,是多尺度鉴别器。它能保证生成的人脸具有更加完整的结构和真实的纹理。
鉴别器由不同深度的子网组成,深度不同,最后一层接收域的大小自然也不一样。最深子网络最后一层中的接收域和捕获全局结构的整个图像大小一致。这些子网在前几层彼此共享权重。
这样,大尺度鉴别器会注意面部整体结构的完整性,而小尺度鉴别器则专注于细节,增强生成面部图像的真实感。
![](https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtCjUO1zjBVia2uCMWAc5Gvdm1sR9BicUOgh10V6YldlsKqAQcWtaLmBNEMxDARUepW9LuzHaHeDkEFQ/640?wx_fmt=png)
△最后一排是真实照片中国科大团队这篇论文的第一作者,是来自中国科学技术大学类脑智能技术及应用国家工程实验室的李宇航。
论文的通讯作者,是该实验室的陈雪锦副教授。陈老师专注于计算机图形学、计算机视觉研究,在中科大读博期间,师从沈向洋教授,2010年从耶鲁大学计算机系博士后出站。
![](https://mmbiz.qpic.cn/mmbiz_jpg/YicUhk5aAGtCjUO1zjBVia2uCMWAc5Gvdm6IR5egSicSuiasz3mjdupaUKgDdc1yia215oY2IKv9E4sVGRFUZ2Mia6GQ/640?wx_fmt=jpeg)
论文的另外两位作者,是中科大信息科学技术学院执行院长吴枫教授和该实验室副主任查正军教授。
传送门论文地址:
https://arxiv.org/abs/1910.08914
— 完 —
![](https://mmbiz.qpic.cn/mmbiz_jpg/fyXZKxaEjCn9sFlHSzPGAziciaMUQSgnb1ELGj0ToU9Kic6yIqNox79iaCWwuxriaRYjDonu1q3ibsn3j6cJA9e50icRg/640?wx_fmt=jpeg)
喜欢就点「好看」吧 !