在麻省理工学院3号楼的地下室,机器人正在仔细考虑下一步行动。它轻轻地戳在一座街区,在一个单独的,缓慢移动但又令人惊讶的敏捷Jenga游戏中,寻找最好的块来提取而不会倒塌塔。
该机器人由麻省理工学院的工程师开发,配备了软指夹,力感腕腕和外部摄像头,所有这些都用于观察和感受塔及其各个块。
当机器人小心地推动一个块时,计算机会从其相机和袖带中获取视觉和触觉反馈,并将这些测量结果与机器人之前制作的动作进行比较。它还考虑了这些举措的结果 - 具体而言,是否成功提取了一个块,在一定的配置中并以一定的力量推动。实时,机器人然后“学习”是否继续推动或移动到新的区块,以防止塔架掉落。
Jenga演奏机器人的细节发表在Science Robotics期刊上。麻省理工学院机械工程系的Walter Henry Gale职业发展助理教授Alberto Rodriguez说,机器人展示了以前系统中难以实现的东西:能够快速学习执行任务的最佳方式,而不仅仅是从视觉线索,如今通常研究,但也来自触觉,物理互动。
“与更纯粹的认知任务或象棋或围棋等游戏不同,玩Jenga游戏还需要掌握物理技能,如探测,推动,拉动,放置和对齐棋子。它需要交互式感知和操控,你需要去接触塔楼,了解如何以及何时移动街区,“罗德里格兹说。“这很难模拟,所以机器人必须通过与真正的Jenga塔相互作用来在现实世界中学习。关键的挑战是通过利用关于物体和物理的常识来从相对少量的实验中学习。”
他说,研究人员开发的触觉学习系统可用于Jenga以外的应用,尤其是需要仔细物理交互的任务,包括将可回收物体与垃圾填埋垃圾分离以及组装消费品。
罗德里格斯说:“在手机组装线上,几乎每一步都有卡扣或螺纹螺丝的感觉来自力和触摸而不是视觉。”“为这些行动学习模型是这种技术的主要动态。”
该论文的第一作者是麻省理工学院的研究生Nima Fazeli。该团队还包括Miquel Oller,Jiajun Wu,Zheng Wu和麻省理工学院大脑和认知科学教授Joshua Tenenbaum。
推和拉
在用于“建造”的Jenga - Swahili游戏中 - 54个矩形块被堆叠成18层,每层三块,每层中的块垂直于下面的块。游戏的目的是小心地提取一个块并将其放置在塔顶,从而建立一个新的水平,而不是推翻整个结构。
为了让机器人编程来玩Jenga,传统的机器学习方案可能需要捕获块,机器人和塔之间可能发生的所有事情 - 这是一项昂贵的计算任务,需要数千甚至数万块的提取数据尝试。
相反,Rodriguez和他的同事们寻找一种更有效的方法,让机器人学会玩Jenga,灵感来自人类的认知以及我们自己可能接近游戏的方式。
该团队定制了一个符合行业标准的ABB IRB 120机器人手臂,然后在机器人范围内设置了一个Jenga塔,并开始了一个训练期,其中机器人首先选择一个随机区块和一个位于该区域上的位置以进行推动。然后它施加少量的力以试图将块推出塔外。
对于每次块尝试,计算机记录相关的视觉和力测量,并标记每次尝试是否成功。
该机器人不是进行数万次这样的尝试(其中涉及重建塔几乎一样多次),而是在大约300次训练中进行训练,尝试将类似的测量和结果分组成代表某些阻挡行为的簇。例如,一个可能的群集表示对难以移动的块的尝试,而不是移动的块或者在移动时使塔倒塌的块。对于每个数据集群,机器人开发了一个简单的模型,以根据当前的视觉和触觉测量来预测块的行为。
Fazeli说这种聚类技术大大提高了机器人学习玩游戏的效率,并且受到人类聚类相似行为的自然方式的启发:“机器人构建聚类,然后为每个聚类学习模型,而不是学习一个模型,捕捉绝对可能发生的一切。“
叠起来
研究人员使用模拟器MuJoCo在游戏的计算机模拟中测试了他们与其他最先进的机器学习算法的方法。在模拟器中学到的经验告诉研究人员机器人在现实世界中学习的方式。
“我们为这些算法提供了我们系统获得的相同信息,以了解他们如何学习如何在相似的水平上玩Jenga,”Oller说。“与我们的方法相比,这些算法需要探索数量级更多的塔来学习游戏。”
好奇的是,他们的机器学习方法如何与真正的人类玩家相媲美,团队与几名志愿者进行了一些非正式的试验。
“我们看到人类在塔楼倒塌之前能够提取多少块,而且差别并不大,”Oller说。
但是,如果研究人员想要将他们的机器人与人类玩家竞争对手,那么还有一段路可走。除了物理交互之外,Jenga还需要策略,例如提取恰当的块,这将使对手难以在不翻倒塔的情况下拉出下一个块。
目前,该团队对开发机器人Jenga冠军不太感兴趣,而更专注于将机器人的新技能应用于其他应用领域。
罗德里格兹说:“我们用手做了许多任务,用'正确的方式'来做这件事的感觉来自于力量和触觉线索的语言。”“对于像这样的任务,我们的类似方法可以解决这个问题。”
这项研究部分由国家科学基金会通过国家机器人计划支持。