机器人学习目(mù)前已经被广泛应用于现实世界(jiè),并可以完成精(jīng)密的手(shǒu)部、腿(tuǐ)部动作。但在动态且高速(sù)的人机互动中,机器(qì)人学习并(bìng)不常见(jiàn)。谷(gǔ)歌选择开发(fā)乒(pīng)乓球机器人,正(zhèng)是(shì)为了探索这类情况下(xià)人工智能的可(kě)能(néng)性。
·使用i-Sim2Real这种方式,在模拟(nǐ)环(huán)境下可以让(ràng)数(shù)年的实(shí)时训练在几分钟或几小时内完成。
谷歌i-Sim2Real项目乒乓球机器人与人类(lèi)训练(liàn)。本文图片来源:谷歌
似乎现存的(de)每(měi)一种桌(zhuō)上运动中,人(rén)工智能都立于不败之地。乒乓球竞技中,谷歌AI同样难逢敌手。10月18日,谷歌公(gōng)布其正在研究的“乒乓球机器人”项目,在(zài)与人(rén)类(lèi)对打时一(yī)回合可(kě)接球340次。目前,谷歌强调(diào)这只是人类与AI的“合作”,并非击(jī)败(bài)人类(lèi),但以AI成长的速度,它将很快成为专(zhuān)业选手。
机器人学习目前(qián)已经被广(guǎng)泛(fàn)应用于现实世界(jiè),并可以完成精(jīng)密的(de)手部、腿部(bù)动作(zuò)。但在动(dòng)态且高速的人机互动中(zhōng),机(jī)器(qì)人学习并不常(cháng)见。谷歌选择开发乒乓球机器人,正是为了探(tàn)索这(zhè)类情(qíng)况下人工(gōng)智能的可能性。
解(jiě)决“先有鸡还是先有蛋”
在这个(gè)名为i-Sim2Real的项(xiàng)目中,谷歌的乒乓(pāng)球(qiú)机器人在模拟环境(jìng)中不(bú)断学习,并将学习成果(guǒ)运用于现实(shí)世界,最终可(kě)以(yǐ)在一个与人类的乒乓球接发回(huí)合中,接球(qiú)超过三(sān)百次。它还能把球送回不同的(de)区域,虽然不能精确到数字上(shàng),但已经足(zú)够(gòu)精确到让(ràng)机器(qì)人(rén)规划策略,来控制(zhì)乒乓球的最终目的(de)地。
i-Sim2Real也不(bú)仅仅是(shì)关于乒乓球机器人,更是一种人工智能创造过程的方(fāng)式,在(zài)这个过程中,机器学(xué)习(xí)模型被教会在(zài)虚拟(nǐ)环境或模拟中(zhōng)做什么,然后再应用这(zhè)些知识,目标是(shì)尽可能(néng)长时间地(dì)与人类进行接球(qiú)回合而不失误。在现(xiàn)实(shí)世(shì)界中(zhōng)直接与(yǔ)人类(lèi)玩家(jiā)进行(háng)训练既繁琐又耗时,当(dāng)需要数年的试验和(hé)错误才(cái)能建立一(yī)个工作模型时,使用i-Sim2Real这(zhè)种方式显得十(shí)分有效,它(tā)在模拟(nǐ)环(huán)境下可以让数年的实时训练在几分钟或几小时内完(wán)成。
这种方式听起(qǐ)来简单(dān)高(gāo)效,但在模拟中机器人并不(bú)是万能(néng)的。人类的活动具有一定的不(bú)可预(yù)测性,并不容易(yì)模拟,需要先有人(rén)类的(de)行为模型作为支撑。而(ér)人类的(de)行为模型,又需(xū)要与机器人互(hù)动(dòng)获得。这就陷(xiàn)入了一个“是先有鸡还是先有蛋”的死循环。
i-Sim2Real解决这一鸡和蛋问题的(de)方(fāng)法(fǎ),是使用一个简单的人(rén)类行为模型作为近似起(qǐ)点,并让(ràng)机(jī)器人在模(mó)拟(nǐ)训练和(hé)现实训练之间交替学习。在每次(cì)迭代(dài)中,都会细化人类行为模型和策(cè)略。在机(jī)器(qì)人接近(jìn)人类行为的过程中,初期(qī)的不理(lǐ)想是可(kě)以接受的,因为机(jī)器人(rén)也只是刚刚开(kāi)始学习(xí),之后每一(yī)场比赛都会收集更多(duō)真(zhēn)实的人类(lèi)数(shù)据,提(tí)高准(zhǔn)确性(xìng),让(ràng)AI学到(dào)更多。
i-Sim2Real的训练方法。
GoalsEye:通过自我监督来自主练习
除了i-Sim2Real这种模拟与现实交替进行的方法,研(yán)究人员也在探(tàn)索(suǒ)只使用现(xiàn)实的(de)数(shù)据学习的方法,即GoalsEye项(xiàng)目。
一开始,模仿学(xué)习(IL)为(wéi)研究(jiū)人(rén)员提供(gòng)了一种简单而(ér)稳定的思路,但它需(xū)要人类行(háng)为(wéi)进行(háng)演(yǎn)示,并且机器人的技(jì)术无法超过(guò)演示者的水平。同时(shí),当演(yǎn)示者(zhě)拥有在(zài)高(gāo)速环境下精确接球的能力时,收(shōu)集(jí)其(qí)数据具有一定挑战性(xìng),而(ér)且在刚(gāng)开始时可能非常(cháng)低效。因此研究人员尝试了一种结合最近行为(wéi)进行重复(fù)的方法,从一(yī)个小(xiǎo)的(de)、结构薄弱的、非目标(biāo)数据集开始,不(bú)断(duàn)学习精确定位目(mù)标的策略(luè)。
这种方法(fǎ)使得(dé)在训练的过程中,机器人(rén)的自主学习能力显得(dé)至关重(chóng)要。研究人(rén)员设置(zhì)了(le)一(yī)个强调精(jīng)度的乒乓球任务,要求机器人将球返回到桌子上的任意目标位置。机器人可以通过自我监督来实现自主练(liàn)习。例如,机(jī)器人可以(yǐ)设置随(suí)机目标,“击中左后角(jiǎo)”或“将球从右侧过网(wǎng)”,并尝试使用当前掌握的策略来实现这些目(mù)标,从而不断改进。所有尝试都会记录并添加(jiā)到(dào)不断(duàn)扩展的数据集中。这(zhè)种自(zì)主练习是(shì)反复进(jìn)行的,机(jī)器人通过不断(duàn)的(de)设置随机目标并尝试目标(biāo),从而扩展训练数据,调(diào)整策略。
GoalsEye策略旨在实现直径(jìng)20厘米的目(mù)标(左)。人类玩家瞄(miáo)准(zhǔn)同一个目(mù)标(右)。
GoalsEye的训练(liàn)方法。
其效果也是显而易见(jiàn)的,在进(jìn)行最初的2480次人类行为演示后,机器人只(zhī)在9%的情况下能准确(què)地达到距离目(mù)标30厘米以内的目(mù)标。然而,当(dāng)机器人(rén)又自主练习了大(dà)约13500次后,达到目标的准确率上升(shēng)到43%。同时,演示数量的提升提高了后续自我练习的效率,这(zhè)说明,计(jì)算时间、成本等(děng)因素后,演示可以适当(dāng)替(tì)换自(zì)我练(liàn)习,从而更高(gāo)效的进行训(xùn)练。
在这两个使用机器人乒乓(pāng)球研究平台的互补项目中,i-Sim2Real可以在模拟(nǐ)与现实中交替学习策略,而GoalsEye则证明,从现(xiàn)实世界的非结(jié)构化数据中学习,结合自我训练,对于在(zài)精确且动(dòng)态的(de)要求中学习目标(biāo)条件策略是(shì)有效的。