杨幂

姚班同学及校友合作论文获评NeurIPS 2021焦点论文

浏览量:
2021年10月25日

        2020届姚(yao)班校友林一(yi)衡、2018级(ji)在(zai)(zai)校生胡扬作为共(gong)同(tong)第一(yi)作者完成的(de)论(lun)文(wen)Perturbation-based Regret Analysis of Predictive Control in Linear Time Varying Systems近日被第三(san)十五届神经信息处(chu)理(li)系统大会(hui)(35th Conference on Neural Information Processing Systems,NeurIPS 2021)接收并评为焦点(dian)论(lun)文(wen)(Spotlight paper),本年度大会(hui)上获(huo)得该荣誉的(de)论(lun)文(wen)占总(zong)投稿数的(de)比例不到3%。该文(wen)旨在(zai)(zai)研(yan)究模型预测控制在(zai)(zai)一(yi)般的(de)线(xian)性(xing)时变系统中性(xing)能的(de)理(li)论(lun)保证。

 

 

        近年来(lai)(lai)(lai),控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)理(li)(li)论(lun)(lun)(lun)与学(xue)习(xi)理(li)(li)论(lun)(lun)(lun)的(de)(de)融合(he)日渐流行,越(yue)来(lai)(lai)(lai)越(yue)多(duo)的(de)(de)研(yan)究希望从学(xue)习(xi)理(li)(li)论(lun)(lun)(lun)的(de)(de)角度(du)为(wei)(wei)控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)器(qi)的(de)(de)性(xing)能提供理(li)(li)论(lun)(lun)(lun)保证。目前,对线性(xing)时(shi)不(bu)(bu)变(linear time-invariant, LTI)系统的(de)(de)控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)器(qi),特(te)别是(shi)(shi)著(zhu)名的(de)(de)线性(xing)二次型调节器(qi)(linear quadratic regulator, LQR),已(yi)经给出了动态遗憾界(dynamic regret)、竞争比(competitive ratio)等理(li)(li)论(lun)(lun)(lun)结果。然而,许多(duo)实际系统较复(fu)杂,不(bu)(bu)能建模(mo)为(wei)(wei)LTI系统,或不(bu)(bu)能被LQR有效控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi),而对一般(ban)情形的(de)(de)理(li)(li)论(lun)(lun)(lun)研(yan)究尚不(bu)(bu)够完善。模(mo)型预(yu)测控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)(MPC)是(shi)(shi)近年来(lai)(lai)(lai)最优(you)(you)控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)领域的(de)(de)新秀,不(bu)(bu)仅引起了学(xue)术界的(de)(de)广泛关(guan)注,也在许多(duo)实际系统(尤其是(shi)(shi)非(fei)线性(xing)时(shi)变系统)的(de)(de)应用中取得了成功。简(jian)单地说,在每一时(shi)刻,MPC控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)器(qi)可(ke)以(yi)(yi)预(yu)测未(wei)来(lai)(lai)(lai)k个时(shi)刻的(de)(de)系统参(can)数(包括动力学(xue)方程、代(dai)价函数等),将(jiang)未(wei)来(lai)(lai)(lai)k步的(de)(de)最优(you)(you)控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)问(wen)题转化为(wei)(wei)以(yi)(yi)总代(dai)价为(wei)(wei)目标的(de)(de)优(you)(you)化问(wen)题求解,并将(jiang)局部最优(you)(you)解中第一步的(de)(de)控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)输(shu)入采纳为(wei)(wei)下一时(shi)刻的(de)(de)控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)输(shu)入。这里k称为(wei)(wei)预(yu)测窗口长度(du)(prediction window),它是(shi)(shi)MPC控(kong)(kong)(kong)(kong)(kong)制(zhi)(zhi)(zhi)(zhi)器(qi)的(de)(de)关(guan)键参(can)数。

 

 

        该研(yan)究的(de)(de)最大(da)贡献(xian)在于:首次在一般(ban)的(de)(de)LTV系(xi)统(动力学方程和决(jue)策代价(jia)均随(sui)时间变化)中,给(ji)出(chu)了MPC控(kong)制器的(de)(de)动态遗憾界(jie)上(shang)界(jie)O(λ^kT)和竞(jing)争比上(shang)界(jie)1 + O(λ^k),且两种性能上(shang)界(jie)均随(sui)预测窗口长(zhang)度k的(de)(de)增(zeng)大(da)而指数(shu)衰减(λ < 1)。该研(yan)究的(de)(de)新结(jie)(jie)果(guo)与以往LTI系(xi)统中的(de)(de)结(jie)(jie)果(guo)在增(zeng)长(zhang)率的(de)(de)阶上(shang)保持一致,但(dan)在定理(li)的(de)(de)适(shi)用范(fan)围上(shang)作了较大(da)的(de)(de)推广。

 

 

 

 

        在(zai)证(zheng)(zheng)明(ming)技术方面,研(yan)究指出:以(yi)往(wang)基于未来代(dai)价函数(cost-to-go function)或利用(yong)(yong)控(kong)制标准(zhun)型(xing)(control canonical form)规约至优化问题(ti)的(de)证(zheng)(zheng)明(ming)框架(jia),对LTV系统(tong)均不适用(yong)(yong)。进(jin)而(er)建(jian)立(li)了一(yi)(yi)种(zhong)基于扰(rao)动(dong)-响(xiang)(xiang)应(ying)分析(xi)的(de)新证(zheng)(zheng)明(ming)框架(jia):首先研(yan)究MPC控(kong)制器所给轨迹(ji)在(zai)系统(tong)参(can)数扰(rao)动(dong)下的(de)响(xiang)(xiang)应(ying),建(jian)立(li)指数衰减的(de)扰(rao)动(dong)响(xiang)(xiang)应(ying)上(shang)界(jie);随后(hou),利用(yong)(yong)扰(rao)动(dong)响(xiang)(xiang)应(ying)上(shang)界(jie)证(zheng)(zheng)明(ming)动(dong)态(tai)遗(yi)憾(han)界(jie)和竞争比的(de)上(shang)界(jie)。由于不需要显式地(di)求出最优轨迹(ji)或最优代(dai)价,可以(yi)期待这一(yi)(yi)证(zheng)(zheng)明(ming)框架(jia)的(de)适用(yong)(yong)范围是广泛的(de):只(zhi)要一(yi)(yi)种(zhong)系统(tong)内可以(yi)建(jian)立(li)类似的(de)扰(rao)动(dong)响(xiang)(xiang)应(ying)上(shang)界(jie),就(jiu)可以(yi)立(li)刻得(de)到相(xiang)应(ying)的(de)理(li)论(lun)性能上(shang)界(jie)。该分析(xi)框架(jia)也是该研(yan)究的(de)重要理(li)论(lun)贡献之一(yi)(yi)。

 

 

        此外,在研(yan)究系统对参(can)数(shu)扰动(dong)的响(xiang)应时(shi),提出了(le)一(yi)种新的从控(kong)(kong)制问(wen)题(ti)规约到在线优化问(wen)题(ti)的方(fang)式。该研(yan)究的规约方(fang)法主要利用了(le)下述事实:如果一(yi)个控(kong)(kong)制系统的可控(kong)(kong)指数(shu)(controllability index)为d,则总可以(yi)通过恰(qia)当的控(kong)(kong)制输入(ru),使系统在d步(bu)后达到状(zhuang)态(tai)空间(jian)内的任意(yi)状(zhuang)态(tai)。这样一(yi)来,可以(yi)将d步(bu)视为一(yi)个整体,在轨迹上每d步(bu)插入(ru)一(yi)个决(jue)策点(dian),使得决(jue)策点(dian)之间(jian)相互独立,从而将控(kong)(kong)制问(wen)题(ti)转化为无约束的在线光滑凸优化(SOCO)问(wen)题(ti)。

 

作者简介

林一衡

交叉信息(xi)研究院2020届姚班校(xiao)友,现为(wei)加(jia)州理工大学(xue)计算与数学(xue)科学(xue)系二年(nian)级博(bo)士生,导(dao)师为(wei)Adam Wierman教(jiao)授和Yisong Yue教(jiao)授。

胡扬

交叉信息(xi)院研(yan)(yan)究姚班2018级(ji)学生,目前本(ben)(ben)科四年(nian)级(ji)在(zai)读。2021年(nian)春季(ji)加入(ru)Adam Wierman教(jiao)授课题组开展研(yan)(yan)究。本(ben)(ben)文系(xi)春研(yan)(yan)期间的合作研(yan)(yan)究成(cheng)果。

 

关于NeurIPS

NeurIPS是计算机(ji)(ji)科学(xue)的顶(ding)级年度国际(ji)会议之(zhi)一,首次(ci)举(ju)办(ban)于1987年,已连(lian)续举(ju)办(ban)35届,目前已发(fa)展为涵盖(gai)人工智能、机(ji)(ji)器学(xue)习、优(you)化控制等多个领域、包含多条不同研(yan)究(jiu)轨道的大型综合性学(xue)术会议。受疫情(qing)影响,NeurIPS 2021将(jiang)于12月6日(ri)~14日(ri)线上举(ju)办(ban)。

 

xml地图 | sitemap地图
邓亚萍复盘混双赛
分享到:QQ空间新浪微博腾讯微博人人网微信
李大钊 特朗普受双重暴击 德甲直播 杨紫 光年之外我的世界 五菱宏光 最强狂兵 美国暴发超级真菌 张飞 中国女排 土耳其 江西一村全年无蚊重庆发现吃虫植物 奔跑吧 逆天邪神 圣墟 海贼王 陕西现纯白梅花鹿 非必要不进出瑞丽 寂静之地2 一拳超人 速度与激情9百炼成钢 地球绝美画面 刘德华 5566 法拉利 马克龙手机遭监听 日本名将张本智和遭逆转出局 易烊千玺 相扑 天官赐福 37年积蓄家中发霉 帝霸 看你看我 十宗罪 迷你特工队 马龙樊振东晋级 5566 第五人格 樱花 逆战 东京奥运今日启幕 斗破苍穹 2020奥运会 接招吧前辈 海贼王 特朗普受双重暴击 吉利 极限挑战宝藏行 奔跑吧兄弟 王牌对王牌 七七事变84周年 初入职场的我们 万古神帝 东京奥运今日启幕 中国大妈 腾讯游戏零点巡航 捷豹 | 下一页
Baidu
sogou
百度 搜狗 360