研究人员利用深度学习将地标照片转换为4D_软件科技

研究人员利用深度学习将地标照片转换为4D

研究人员利用深度学习将地标照片转换为4D_软件科技_TV应用

康奈尔大学的研究人员开发了一种新的方法，利用深度学习，将世界地标性的照片变成4D。研究小组依靠公开的旅游照片，比如罗马的特雷维喷泉（Trevi Fountain），最终的结果是可操作的3D图像，可以显示外观随时间的变化。

这种新开发的方法吸收并合成了数以万计未标记和未标注日期的照片，这是计算机视觉的一大进步。

这项工作的题目是“众采样的全光学功能”，并在8月23日至28日举行的虚拟欧洲计算机视觉会议上发表。

诺亚·斯纳维是康奈尔理工学院计算机科学副教授，也是这篇论文的资深作者。其他投稿人包括论文第一作者、康奈尔大学博士生李正启，以及计算与信息科学学院计算机科学助理教授阿伯·戴维斯和康奈尔理工大学博士生冼文琪。

斯纳夫利说：“这是一种新的场景建模方法，不仅可以让你移动你的头，从不同的角度看喷泉，还可以控制时间的变化。”。

“如果你真的去了Trevi喷泉度假，它的样子将取决于你什么时候去的——在晚上，它会被底部的泛光灯照亮。下午，除非你在多云的天气里去，否则会有阳光照射。“我们根据一天中的时间和天气，从这些无组织的照片集中了解到了所有的外观，这样你就可以探索整个范围，同时在场景中移动。”

传统的计算机视觉局限性

由于有如此多不同的纹理需要复制，传统的计算机视觉很难通过照片精确地表示出地方。

斯纳夫利说：“现实世界的外观是如此的多样化，有着不同种类的材料——闪亮的东西、水、薄薄的结构。”

除了这些障碍之外，传统的计算机视觉还难以处理不一致的数据。全光功能是指物体在空间和时间上从每个可能的角度出现的方式，但是为了重现这一点，现场需要数百个摄像头。不仅如此，他们还得整日整夜录音。这是可以做到的，但在查看需要此方法的场景数量时，这是一项资源极其繁重的任务。

从其他照片中学习

为了避开这个问题，研究小组开发了新方法。

数据集中可能没有下午4点从这个确切的角度拍摄的照片。所以我们得从9点拍的照片中学习。在一个地点，一张4:03从另一个地点拍摄的照片。“我们不知道这些照片是什么时候拍的。但通过深入学习，我们可以推断出在任何给定的时间和地点，场景会是什么样子。”

研究人员引入了一种新的场景表示方法，称为深度多平面图像，以便在四个维度（三维且随时间变化）内插外观。

根据snavly的说法，“我们使用在2D动画中创建3D效果的相同想法来创建真实场景中的3D效果，通过将其与游客照片中所有不同的测量值相匹配来创建这种深层的多层图像。有趣的是，它源于这种非常古老、经典的动画技术。”

研究表明，经过训练的模型可以创建一个场景，其中包含来自不同站点的50000张公开可用图像。研究小组认为，它可能在许多领域产生影响，包括计算机视觉研究和虚拟旅游。

斯内夫利说：“你真的能感觉到。“对于一系列场景来说，它的效果出奇地好。”

该项目得到了谷歌前首席执行官兼慈善家埃里克·施密特以及温特·施密特的支持。

研究人员利用深度学习将地标照...