在过去的几十年里,世界各地的研究团队已经开发出了机器学习和深度学习技术,可以在各种任务上达到与人类相当的性能。为了进一步评估他们的能力和表现,一些模特还被训练玩著名的棋盘或电子游戏,比如中国古代的围棋或雅达利街机游戏。
苏黎世大学(University of Zurich)和索尼AI苏黎世公司(SONY AI Zurich)的研究人员最近测试了一种基于深度强化学习的方法的性能,该方法被训练用于玩著名的赛车游戏Gran Turismo Sport。Gran Turismo Sport是由Polyphony Digital开发、索尼互动娱乐公司(SONY Interactive Entertainment)发行的。他们的发现发表在arXiv上的一篇论文中,进一步强调了深度学习技术在模拟环境下控制汽车的潜力。
“高速自动驾驶是一项具有挑战性的任务,即使在车辆接近其物理极限时,也需要产生快速而精确的动作,”进行这项研究的研究人员之一宋云龙告诉TechXplore。自动驾驶汽车比赛的目标是在最短的时间内完成给定的课程,它的特点是控制一辆接近其物理极限的汽车有一些困难。为了解决这些挑战并推进前沿,我们考虑了畅销赛车游戏Gran Turismo Sport中的自动驾驶赛车任务,该游戏以其对各种赛车和赛道的详细物理模拟而闻名。”
宋和他的同事们最近进行的研究的主要目标是开发一种基于人工神经网络(ANN)的控制器,这种控制器可以在不需要事先了解赛车动力学的情况下,在模拟赛道上自动移动赛车。为了在赛车运动中表现出色,控制器应该尽量减少完成给定轨迹所需的时间。
为了实现他们的目标,研究人员首先定义了一个奖励函数,将“赛车问题”定义为一个最小时间问题,并概述了一个神经网络策略,可以直接将输入观察结果映射到汽车控制命令。随后,他们使用强化学习训练他们的神经网络参数,使他们的模型在表现良好时获得的奖励最大化。
研究人员在Gran Turismo Sport的试验中训练了他们基于神经网络的控制器,在4台Playstation 4游戏机和一台台式电脑上运行这款游戏。值得注意的是,经过不到73小时的训练,他们的模特已经取得了超人的表现。
“与经典的状态估计、轨迹规划和最优控制方法不同,我们的方法不依赖于人类干预、人类专家数据或明确的路径规划,”宋说。“我们发现,它可以生成与人类最佳选手选择的轨迹在性质上相似的轨迹,同时在我们的三种参考设置中(包括两辆不同的赛车在两条不同的赛道上),它的表现都超过了人类最著名的圈速。”
研究表明,基于深度学习的方法也可以在需要持续控制的游戏中取得超人的表现,而不是像在阿尔法围棋中获胜所需要的一系列单独的、有策略的行动。这进一步突出了机器学习技术的潜力,特别是那些使用强化学习训练的技术,用于解决那些用经典计算方法难以或不可能解决的复杂问题。
为了更好地了解他们的方法表现得有多好,宋和他的同事们采访了一名人类Gran Turismo运动专家,他在几项国内和国际视频游戏比赛中都取得了最好的成绩。他们请这位匿名的玩家与他们的基于神经网络的模型进行竞争,并给出他对模型驾驶风格的看法。
在他完成几次试验后,玩家说,“政策非常积极,但我认为这只有通过它的精确行动才能实现。”从技术上讲,我也可以驾驶同样的赛道,但在1000次中有999次,我在尝试这条赛道时会碰到墙,这会破坏我的整个圈时间,我不得不从头开始一圈。”
这名玩家的观点证实了研究人员训练出来的模型具有超人的能力。更具体地说,它强调了该模型能够达到的高精确度以及持续执行最佳行动的能力,甚至在这些行动是有风险的,可能导致人类玩家将汽车推离轨道的情况下也是如此。
宋说:“我们现在计划开发更多的通用人工智能代理,可以在各种赛道上驾驶不同的汽车。”“我们也在致力于解决自动驾驶汽车超车的问题,其中代理必须学会如何在高速驾驶的情况下超车,而且不会发生碰撞。”