东京奥运会赛程

高阳课题组提出Efficient Zero模型,取得强化学习领域新突破

浏览量:
2021年11月15日

    近日,清华大学(xue)交叉信息(xi)研究院高(gao)阳(yang)研究组在强(qiang)化(hua)学(xue)习领域中取得突破(po),研究组所提(ti)出的模型EfficientZero首次在雅(ya)达利(Atari )游戏数据上超过同(tong)等游戏时长的人类(lei)平(ping)均水平(ping)。EfficientZero的高(gao)效率学(xue)习能力为强(qiang)化(hua)学(xue)习算法应(ying)用到现(xian)实世界场景提(ti)供了更大可能。

 

EfficientZero在Atari 100k(2h环境数据(ju))基准下(xia)与其他算法结果对比

 

    该研究(jiu)成果一经公开(kai),便在学术圈引发关注(zhu)和热议,收获大量好评。甚至还有科技方向的博主做了半小时(shi)的视频(pin)讲解此文,短短两天已有上万(wan)人次(ci)观看。

 

网友在Twitter上(shang)的(de)转发以及在YouTube上(shang)的(de)讲(jiang)解视(shi)频

 

    Atrai游(you)(you)戏(xi)是(shi)目(mu)前强(qiang)化(hua)学(xue)(xue)习(xi)领域(yu)最常(chang)用(yong)的(de)(de)性(xing)能(neng)测试标准之一(yi),它(ta)包(bao)含(han)丰富的(de)(de)游(you)(you)戏(xi)场景(jing),且(qie)各个游(you)(you)戏(xi)规则各异(yi)。在(zai)2015年(nian),Deep Mind团(tuan)队(dui)提(ti)出算法(fa)DQN,通过200M帧训练(lian)(lian)数(shu)据(ju),在(zai)Atari游(you)(you)戏(xi)上达(da)到了人类平(ping)均水(shui)平(ping)。然而(er)EfficientZero达(da)到同等水(shui)平(ping)仅仅需要DQN需求(qiu)数(shu)据(ju)量的(de)(de)1/500。而(er)低样(yang)本(ben)效率是(shi)限制强(qiang)化(hua)学(xue)(xue)习(xi)算法(fa)应(ying)用(yong)于真实场景(jing)的(de)(de)障(zhang)碍之一(yi),这(zhei)是(shi)因为在(zai)真实场景(jing)中,实验人员无法(fa)像在(zai)模拟场景(jing)中获取(qu)大(da)量数(shu)据(ju)用(yong)于训练(lian)(lian)模型。这(zhei)表明EfficientZero的(de)(de)高(gao)样(yang)本(ben)效率与(yu)高(gao)性(xing)能(neng)能(neng)够让强(qiang)化(hua)学(xue)(xue)习(xi)算法(fa)更加贴近真实应(ying)用(yong)的(de)(de)场景(jing),为强(qiang)化(hua)学(xue)(xue)习(xi)算法(fa)能(neng)够落(luo)地提(ti)供了更大(da)的(de)(de)可能(neng)性(xing)。

 

部(bu)分Atari游戏展示

 

    EfficientZero是(shi)一(yi)(yi)种model-based的算法,基于此前的MuZero模型,这(zhei)类模型一(yi)(yi)方(fang)面(mian)通(tong)(tong)过(guo)(guo)收(shou)集的数据来学习环境(jing)模型,从而(er)能够预测(ce)环境(jing)的变(bian)化,另一(yi)(yi)方(fang)面(mian)利用(yong)所(suo)学出的模型预测(ce)未(wei)来的轨(gui)迹(ji)和(he)所(suo)得(de)回(hui)报(bao),通(tong)(tong)过(guo)(guo)MCTS进行规划,从而(er)在(zai)少量(liang)训练(lian)数据情况(kuang)下(xia)(xia)能够达到较高的性(xing)能。EfficientZero提(ti)出了(le)三(san)点改进:时(shi)序一(yi)(yi)致性(xing),预测(ce)阶段回(hui)报(bao),修正目标价值。其中(zhong)时(shi)序一(yi)(yi)致性(xing)的实(shi)(shi)现是(shi)通(tong)(tong)过(guo)(guo)计算机视(shi)觉领域中(zhong)的对比学习算法SimSiam实(shi)(shi)现的,这(zhei)使得(de)状(zhuang)(zhuang)态转移模型所(suo)预测(ce)的下(xia)(xia)一(yi)(yi)步状(zhuang)(zhuang)态靠近(jin)真(zhen)实(shi)(shi)轨(gui)迹(ji)的下(xia)(xia)一(yi)(yi)步状(zhuang)(zhuang)态,从而(er)促进状(zhuang)(zhuang)态转移模型的学习。

 

EfficientZero通过自监督学习(xi)保持时序一致性

 

    研(yan)究提出,在训(xun)练(lian)过(guo)程中有(you)些状(zhuang)态(tai)(tai)的(de)回报是很难预(yu)(yu)测的(de),因此(ci)预(yu)(yu)测每步状(zhuang)态(tai)(tai)的(de)回报会有(you)较高(gao)的(de)不确定性,但是预(yu)(yu)测阶段的(de)回报相对来说更(geng)加平滑(hua),从(cong)而减(jian)少这(zhei)(zhei)种不确定性。研(yan)究组通(tong)过(guo)更(geng)改目标价值函(han)数实(shi)现离线策略价值函(han)数的(de)纠正(zheng)。此(ci)外,EfficientZero还在部分模(mo)拟机器人控制环境DMControl中进行了实(shi)验,并(bing)取得(de)了目前(qian)最佳性能(neng)(neng),这(zhei)(zhei)也进一步表(biao)明EfficientZero在更(geng)复杂的(de)模(mo)拟环境情形(xing)下仍然能(neng)(neng)维持高(gao)样本效率和高(gao)性能(neng)(neng)。

 

    该成果的(de)研究论文(wen)《Mastering Atari Games with Limited Data》被2021年神经信(xin)息(xi)处理系统进展大会(NeurIPS 2021)接(jie)收。该论文(wen)的(de)第(di)一作者为(wei)交叉信(xin)息(xi)研究院2020级(ji)博士生叶(ye)葳蕤,通讯作者为(wei)高(gao)阳助理教授。其他作者包括(kuo)加美(mei)国加州(zhou)大学伯(bo)克(ke)利分校教授Pieter Abbeel、交叉信(xin)息(xi)研究院2020级(ji)硕士生刘(liu)绍淮以及加州(zhou)大学伯(bo)克(ke)利分校博士生Thanard Kurutach。

 

 

作者简(jian)介

高阳

博士毕业于加州(zhou)大学伯克利分校,现(xian)任交叉信息研究(jiu)(jiu)院助(zhu)理教(jiao)授,其主要(yao)研究(jiu)(jiu)方向为计算机视(shi)觉(jue)和强化学习(xi)。

 

刘(liu)绍淮(huai)

交叉(cha)信息研究(jiu)院计算机科学(xue)与技术(shu)专(zhuan)业(ye)2020级硕士生(sheng),导师为高(gao)阳助(zhu)理(li)教授。

 

叶葳蕤(rui)

交叉信息(xi)研(yan)究院计(ji)算(suan)机科学与技术(shu)专(zhuan)业2020级博士生,导(dao)师为高阳助理(li)教授。

 

 

论(lun)文链接(jie)

http://arxiv.org/abs/2111.00210

 

 

xml地图 | sitemap地图
名侦探柯南
分享到:QQ空间新浪微博腾讯微博人人网微信
十八岁的天空 寂静之地2 凯迪拉克 Without Me 王牌对王牌 马龙不吹球就吹手 只是太爱你 周杰伦 三生三世十里桃花 魔道祖师下坠Falling 格力研发空调发电 杨紫 解放军报 吴亦凡 虎扑 看你看我 守望先锋 唐人街探案3大决战 迷你特工队 吞噬星空 吉林一仓库火灾已致14死12重伤 郑州地铁遇难名单 红旗 如懿传 鸿星尔克评论心酸 凯迪拉克 下一位前度 格力研发空调发电 熊出没之夏日连连看 李沁 初入职场的我们 中国女排无缘决赛 守望先锋 乌女兵穿高跟鞋 植物大战僵尸 五等分の気持ち 完美世界 叛逆者 七一晚会 江西一村全年无蚊重庆发现吃虫植物 三国杀 刑侦日记 三国演义 千与千寻 三国杀 明星大侦探 nba选秀 贰 黄飞鸿之英雄有梦 体操男团获得铜牌 博格巴 赛尔号 看你看我 陈延年牺牲94周年 十宗罪 鲁迅 斗破苍穹 | 下一页
Baidu
sogou
百度 搜狗 360