让简笔画生成逼真人脸!未来或能用于警察破案

在5G全面铺展的新技术时代,随着分身技术落地经验的不断积累以及产品技术的突破创新,5月21日,在全国瞩目的两会召开之际,搜狗联合新华社推出的全球首个3D AI合成主播“新小微”正式亮相,为全国观众带来最新的两会新闻资讯报道。近日,中国科学院北京分院的研究团队研发出一个AI人像生成模型。该模型可以依据简笔画生成逼真的人脸肖像。

利用这一模型,没有绘画经验的人也可以很容易地得到逼真图像。除了用于娱乐,在未来,这个模型或能帮助执法人员进行嫌疑人画像。

这项研究发表在学术网站arXiv上,论文标题为《深度人脸画像:从草图深度生成人脸图像(Deep Face Drawing:Deep Generation of FaceImages from Sketches)》。今年七月份,这项技术将在计算机图形学顶会SIGGRAPH会议上展出。

 一、给人脸“分区”,逐块推理出逼真图像

现有的“从图像生成图像”的技术已经可以实现快速输出结果。但是,现有解决方案对输入图像的要求较高,只有以专业素描画像等逼真度较高的图像作为输入时,才能生成逼真的人脸肖像。

在这种模型中,输出结果的质量直接受到输入图像的影响,即输出结果受到输入图像的“硬约束”。

为了解决这一问题,中国科学院北京分院的研究团队设计出一种“从局部到全局(local-to-global)”的“软约束(soft constraint)”方法。总的来说,这一方法基于一个深度学习框架,分为两步进行。

首先,研究人员把简笔画输入模型。模型依据简笔画,推理出人脸上各个器官的“布局”情况。这一步中,模型采用隐式建模(implicitly model)方法建立人脸图像的形状空间模型,并学习人脸关键部位的特征嵌入。

模型将人脸分成左眼、右眼、鼻子、嘴唇、脸型这5个关键“组件”。

然后,模型依据脸部的“布局”情况,从简笔画“倒推”出逼真的人脸图像。这一步中,模型依据人脸组件样本的特征向量,从输入简笔画的相应部分,推理出潜在的人脸组件流形(Manifold)。

对于每一个关键部位,模型隐式定义了一个潜在流形。研究人员假设底层组件的流形是局部线性的。模型运行经典的局部性嵌入算法,将简笔画人脸特征的组件投影到其组件流形上。

为了改善信息流,研究人员应用另一个深层神经网络,使其在上述两步之间输出中间结果。这个深层神经网络通过多通道特征映射,学习从嵌入组件特征到逼真图像的映射结果。

 二、60位参与者打分1302次,证实模型输出结果更逼真

模型搭建好后,研究人员使模型在一台搭载了一个英特尔i7-7700CPU和一个NVIDIAGTX 1080Ti GPU、拥有16GB内存的电脑上运行,用17000张简笔画和照片进行训练。训练结束后,研究人员对模型进行了评估。

研究人员首先用线条不同的简笔画作为输入。结果显示,不同的线条会导致输出图像拥有不同的细节,但输出图像其他部分大体上没有变化。

然后,研究人员选用现有的全局检索(global retrieval)模型和组件级检索(component-level retrieval)模型与本项研究中的“从局部到全局”模型进行了对比。结果显示,“从局部到全局”模型返回的样本最接近输入组件草图。

为了使评估结果更加精确,研究人员进行了一项用户调查。研究人员选用22张抽象层次不同、粗糙度不同的简笔画作为输入,分别用全局检索模型、组件级检索模型、“从局部到全局”模型输出结果。

共有60名参与者(39男21女,年龄介乎18至32岁)参加了用户调查。研究人员向每个参与者展示4张照片,其中1张为简笔草图、3张为模型输出的合成图像。

研究人员共得到1320个主观评价。对这些评价结果的统计结果显示,参与者普遍认为“从局部到全局”模型的输出结果更加准确、图像质量也更高。

 三、局限性:易出现不兼容问题,缺乏少数族裔样本

评估结果显示,“从局部到全局”模型能根据一张人脸简笔画,输出仿真度较高的人脸图像。但是,论文指出,这一模型还有一些局限性。

将人脸简笔画“分区”的方法优势在于灵活度较高,但也可能带来各个组件不兼容的问题。这个问题对于眼睛来说尤其明显。模型“分区”考虑左右眼的策略可能导致输出图像的眼睛不对称。根据论文,引入对称损失(symmetry loss)或明确规定输出结果中的眼睛必须来自同一样本可解决这一问题。

另外,在用于训练的17000张简笔画和照片中,大部分是白种人、南美人的脸,缺乏少数族裔样本。因此,模型对少数族裔样本的画像结果可能会出现失真等问题。

 结语:人脸合成技术的价值超出预期

本项研究中,中国科学院北京分院的研究团队采用“从局部到全局”的方法,设计出一个AI人像生成模型。该模型可以依据一张人脸简笔画,输出逼真的人脸画像。

根据论文,在未来,研究人员计划引入侧脸简笔画、在简笔画中增加随机噪声等,通过增加训练数据的规模,使模型输出图像结果更准确。

另外,“从局部到全局”模型的官网信息指出,研究人员将很快推出该模型的代码。这意味着在不久的将来,我们将能看到这个模型的实际应用。

近些年来,基于生成对抗网络(GAN)的Deepfake技术多次被曝出滥用丑闻,引起了很大争议。学界和业界一度谈Deepfake而“色变”,致力于找出能规避其风险的解决方案。比如,如脸书、亚马逊网络服务及其他机构联合发起了“Deepfake鉴别挑战”项目。

同样用到生成对抗网络,这次中科院团队研发的模型可以利用简笔画生成逼真人像,这既显示出了现在人脸合成技术的厉害之处,也启示我们人脸合成技术的价值比想象的更加丰富和超出预期。

让简笔画生成逼真人脸!未来或能用于警察破案_设计制作_可编程逻辑
95
87
0
87

相关资讯

  1. 1、面对工业机器人时代,国产线缆和连接器将如何发展618
  2. 2、ABB:打造低碳工厂样板工程践行碳中和之路2904
  3. 3、什么是集成机器视觉?2510
  4. 4、怎样使用V4L2视频驱动常用的控制命令?2110
  5. 5、亚太仓储业调查:未来5年,企业愿意把钱投在哪里?3591
  6. 6、3系列FPGA中使用LUT构建分布式RAM(3)4545
  7. 7、《街篮高手》撩妹神器圆你逆袭女神之梦4399
  8. 8、全民奇迹灵灵狗精灵搭配揭秘百搭灵宠充就送3019
  9. 9、《复仇天使》iOS版正式上线橙光游戏开启复仇之路4156
  10. 10、为什么熊出没之雪岭熊风手游这么火品质证明一切3739
全部评论(0)
我也有话说
0
收藏
点赞
顶部