让简笔画生成逼真人脸！未来或能用于警察破案_设计制作

在5G全面铺展的新技术时代，随着分身技术落地经验的不断积累以及产品技术的突破创新，5月21日，在全国瞩目的两会召开之际，搜狗联合新华社推出的全球首个3D AI合成主播“新小微”正式亮相，为全国观众带来最新的两会新闻资讯报道。近日，中国科学院北京分院的研究团队研发出一个AI人像生成模型。该模型可以依据简笔画生成逼真的人脸肖像。

利用这一模型，没有绘画经验的人也可以很容易地得到逼真图像。除了用于娱乐，在未来，这个模型或能帮助执法人员进行嫌疑人画像。

这项研究发表在学术网站arXiv上，论文标题为《深度人脸画像：从草图深度生成人脸图像（Deep Face Drawing:Deep Generation of FaceImages from Sketches）》。今年七月份，这项技术将在计算机图形学顶会SIGGRAPH会议上展出。

一、给人脸“分区”，逐块推理出逼真图像

现有的“从图像生成图像”的技术已经可以实现快速输出结果。但是，现有解决方案对输入图像的要求较高，只有以专业素描画像等逼真度较高的图像作为输入时，才能生成逼真的人脸肖像。

在这种模型中，输出结果的质量直接受到输入图像的影响，即输出结果受到输入图像的“硬约束”。

为了解决这一问题，中国科学院北京分院的研究团队设计出一种“从局部到全局（local-to-global）”的“软约束（soft constraint）”方法。总的来说，这一方法基于一个深度学习框架，分为两步进行。

首先，研究人员把简笔画输入模型。模型依据简笔画，推理出人脸上各个器官的“布局”情况。这一步中，模型采用隐式建模（implicitly model）方法建立人脸图像的形状空间模型，并学习人脸关键部位的特征嵌入。

模型将人脸分成左眼、右眼、鼻子、嘴唇、脸型这5个关键“组件”。

然后，模型依据脸部的“布局”情况，从简笔画“倒推”出逼真的人脸图像。这一步中，模型依据人脸组件样本的特征向量，从输入简笔画的相应部分，推理出潜在的人脸组件流形（Manifold）。

对于每一个关键部位，模型隐式定义了一个潜在流形。研究人员假设底层组件的流形是局部线性的。模型运行经典的局部性嵌入算法，将简笔画人脸特征的组件投影到其组件流形上。

为了改善信息流，研究人员应用另一个深层神经网络，使其在上述两步之间输出中间结果。这个深层神经网络通过多通道特征映射，学习从嵌入组件特征到逼真图像的映射结果。

二、60位参与者打分1302次，证实模型输出结果更逼真

模型搭建好后，研究人员使模型在一台搭载了一个英特尔i7-7700CPU和一个NVIDIAGTX 1080Ti GPU、拥有16GB内存的电脑上运行，用17000张简笔画和照片进行训练。训练结束后，研究人员对模型进行了评估。

研究人员首先用线条不同的简笔画作为输入。结果显示，不同的线条会导致输出图像拥有不同的细节，但输出图像其他部分大体上没有变化。

然后，研究人员选用现有的全局检索（global retrieval）模型和组件级检索（component-level retrieval）模型与本项研究中的“从局部到全局”模型进行了对比。结果显示，“从局部到全局”模型返回的样本最接近输入组件草图。

为了使评估结果更加精确，研究人员进行了一项用户调查。研究人员选用22张抽象层次不同、粗糙度不同的简笔画作为输入，分别用全局检索模型、组件级检索模型、“从局部到全局”模型输出结果。

共有60名参与者（39男21女，年龄介乎18至32岁）参加了用户调查。研究人员向每个参与者展示4张照片，其中1张为简笔草图、3张为模型输出的合成图像。

研究人员共得到1320个主观评价。对这些评价结果的统计结果显示，参与者普遍认为“从局部到全局”模型的输出结果更加准确、图像质量也更高。

三、局限性：易出现不兼容问题，缺乏少数族裔样本

评估结果显示，“从局部到全局”模型能根据一张人脸简笔画，输出仿真度较高的人脸图像。但是，论文指出，这一模型还有一些局限性。

将人脸简笔画“分区”的方法优势在于灵活度较高，但也可能带来各个组件不兼容的问题。这个问题对于眼睛来说尤其明显。模型“分区”考虑左右眼的策略可能导致输出图像的眼睛不对称。根据论文，引入对称损失（symmetry loss）或明确规定输出结果中的眼睛必须来自同一样本可解决这一问题。

另外，在用于训练的17000张简笔画和照片中，大部分是白种人、南美人的脸，缺乏少数族裔样本。因此，模型对少数族裔样本的画像结果可能会出现失真等问题。

结语：人脸合成技术的价值超出预期

本项研究中，中国科学院北京分院的研究团队采用“从局部到全局”的方法，设计出一个AI人像生成模型。该模型可以依据一张人脸简笔画，输出逼真的人脸画像。

根据论文，在未来，研究人员计划引入侧脸简笔画、在简笔画中增加随机噪声等，通过增加训练数据的规模，使模型输出图像结果更准确。

另外，“从局部到全局”模型的官网信息指出，研究人员将很快推出该模型的代码。这意味着在不久的将来，我们将能看到这个模型的实际应用。

近些年来，基于生成对抗网络（GAN）的Deepfake技术多次被曝出滥用丑闻，引起了很大争议。学界和业界一度谈Deepfake而“色变”，致力于找出能规避其风险的解决方案。比如，如脸书、亚马逊网络服务及其他机构联合发起了“Deepfake鉴别挑战”项目。

同样用到生成对抗网络，这次中科院团队研发的模型可以利用简笔画生成逼真人像，这既显示出了现在人脸合成技术的厉害之处，也启示我们人脸合成技术的价值比想象的更加丰富和超出预期。

让简笔画生成逼真人脸！未来或...

让简笔画生成逼真人脸！未来或能用于警察破案

相关资讯