学习效率低怎么办?谷歌科学家让人工智能边玩边学

  深度强化学习是一种利用奖励推动软件策略实现目标的  人工智能 培训技术,已经被用于各种会对社会规范产生影响的模型,比如创建擅长玩游戏的人工智能以及可以从泄露事故中恢复的编程机器人。但是尽管它具有很多功能,但强化学习(RL)还是有一个缺点:效率低下。培训一个策略需要在模拟或现实环境中进行大量的交互,这个过程远远超过普通人学习一个任务所需要的交互量。

 学习效率低怎么办?谷歌科学家让人工智能边玩边学_人工智能_智能芯片
人工智能

为了在视频游戏领域做出一些改进,  谷歌 的研究人员最近提出了一种新的算法,模拟策略学习(Simulated Policy Learning),简称SimPLe,它使用游戏模型来学习选择动作的质量策略。

谷歌的人工智能科学家Kaiser和Dumitru Erhan在相关论文中写道:“在高层次上,SimPLe是在  模拟游戏 环境中学习游戏行为的世界模型,并使用该模型优化策略之间的交替。这种算法背后的基本原理已经建立得非常好了,并已被用于最近许多基于模型的强化学习方法之中。”

训练人工智能系统玩游戏需要在给定一系列观察帧和命令,例如“左”、“右”、“前”、“后”的情况下预测目标游戏的下一帧。他们指出,一个成功的模型可以产生可用于训练游戏代理策略的轨迹,这将消除对游戏内序列的需要,这些序列的计算成本高昂。

在相当于持续两小时的游戏实验中,使用SimPLe调整策略的代理在两个测试游戏中获得了最高分,并产生了“近乎完美的预测”,最多可以预测未来50步。它们偶尔会难以捕捉游戏中某些物体,因而导致失败,研究人员承认它还无法达到标准RL方法的性能,但SimPLe在培训方面的效率已经提高了两倍。

91
146
0
96

相关资讯

  1. 1、孟美岐拍电影增重15斤,新片我心飞扬杀青,网友:偶像转型演员5019
  2. 2、原来《功夫》当中,那个穿红内裤的裁缝,才是现实中真正的大神!1936
  3. 3、捧红了宋小宝和小沈阳之后,赵本山终于要开始捧自己女儿了4790
  4. 4、港媒爆蓝洁瑛寓所去世,屋中异味明显,曾饰演《大话西游》蜘蛛精1646
  5. 5、国师张艺谋时隔19年重返威尼斯电影节,获官方盖章为大师!5115
  6. 6、5部国产片肉搏七夕档:范爷派豪礼晓明说baby4825
  7. 7、《发财日记》:一部献给打工人的成人童话2546
  8. 8、郭敬明自称只是普通青年导《小时代3》压力大2653
  9. 9、前港姐之女提前庆生为能够与天后杨千嬅演对手戏感兴奋140
  10. 10、因直播被全网吐槽的谢孟伟,翻拍《战狼》太失败,新片扑街烂出新高度?1764
全部评论(0)
我也有话说
0
收藏
点赞
顶部