首页 > 信息互动 > > 正文
2021-07-20 22:26:35

通过观察人类机器人学会了执行复杂的任务

导读 也许有一天,训练交互式机器人对每个人来说都是一项简单的工作,即使是那些没有编程经验的人。机器人专家正在开发一种自动化机器人,这

也许有一天,训练交互式机器人对每个人来说都是一项简单的工作,即使是那些没有编程经验的人。机器人专家正在开发一种自动化机器人,这种机器人可以通过观察人类来学习新任务。在家里,你可能有一天会向一个家用机器人展示如何做日常家务。在工作场所,你可以像培训新员工一样培训机器人,向他们展示如何履行许多职责。

为了在这一设想上取得进展,麻省理工学院的研究人员设计了一个系统,让这类机器人学习复杂的任务,否则它们会被太多令人困惑的规则所阻碍。其中一项任务是在一定条件下布置餐桌。

在其核心,研究人员的“不确定规格的规划”(PUnS)系统使机器人具有了像人类一样的规划能力,可以同时权衡许多模糊的和潜在的矛盾的需求,以达到最终目标。在这样做的时候,系统总是基于对它应该执行的任务的一些可能的规范的“信念”,选择最可能采取的行动。

在他们的工作中,研究人员编制了一个数据集,其中包含了八个物体——一个杯子、玻璃杯、汤匙、叉子、刀子、餐盘、小盘子和碗——如何以不同的配置摆放在桌子上的信息。机械手臂首先观察随机选择的人类演示如何用这些物品摆放桌子。然后,研究人员让这只手臂根据所看到的情况,在真实世界的实验和模拟中,根据特定的配置,自动设置一张桌子。

为了成功,机器人必须权衡许多可能的放置顺序,即使是有意移除、堆积或隐藏的物品。正常情况下,所有这些都会让机器人感到非常困惑。但是,研究人员的机器人在几个真实的实验中没有出现任何错误,在数万次模拟测试中只有少数几个错误。

”的愿景是将编程领域专家的手中,他们可以通过直观的方法程序的机器人,而不是描述命令工程师添加到他们的代码,”第一作者Ankit Shah说,航空航天系的研究生(航空航天系)和交互式机器人集团强调,他们的工作只是一个步骤在实现这一愿景。这样,机器人就不必再执行预先设定好的任务了。工厂工人可以教机器人做多种复杂的装配任务。家用机器人可以跟家里的人学习如何叠橱柜,如何装洗碗机,如何摆桌子。”

与Shah一起发表论文的还有航空航天与互动机器人小组的研究生沈丽和互动机器人小组的组长Julie Shah,她是航空航天与计算机科学与人工智能实验室的副教授。

机器人对冲投资

考虑到机器人的行动、环境和最终目标,机器人是任务的精细规划者,具有明确的“规范”,有助于描述机器人需要完成的任务。学习通过观察演示来设置表,充满了不确定的规范。根据菜单和客人就座的位置,物品必须摆放在特定的位置,根据物品的即时可用性或社会习俗,物品必须按特定的顺序摆放。目前的规划方法无法处理这种不确定的规格。

一种流行的计划方法是“强化学习”,这是一种反复试验的机器学习技术,当他们努力完成一项任务时,它会对他们的行为进行奖励和惩罚。但是对于规格不确定的任务,很难定义明确的奖励和惩罚。简而言之,机器人永远不会完全明辨是非。

研究人员的系统被称为双关语(用于不确定规格的规划),它使机器人能够对一系列可能的规格抱有“信念”。这种信念本身可以用来奖励和惩罚。安吉特·沙阿说:“机器人本质上是在对任务的意图进行两面下注,并采取符合其信念的行动,而不是我们给它一个明确的说明。”

该系统建立在“线性时间逻辑”(LTL)的基础上,LTL是一种富有表现力的语言,能够对当前和未来的结果进行机器人推理。研究人员在LTL中定义了模板,用于模拟各种基于时间的条件,例如现在必须发生的事情,最终必须发生,并且必须发生,直到其他事情发生。机器人观察了30个人类摆桌子的演示,得出了25个不同的LTL公式的概率分布。每个公式为设置表编码了略有不同的首选项(或规范)。概率分布成了它的信念。

“每个公式都编码不同的东西,但当机器人考虑所有模板的不同组合,并试图满足所有东西在一起,它最终会做正确的事情,”Ankit Shah说。

以下标准

研究人员还开发了几个标准,引导机器人满足这些候选公式的整个信念。例如,其中一个满足最可能的公式,该公式以最高的概率抛弃除模板之外的所有其他内容。其他的满足最大数量的唯一公式,而不考虑它们的总体概率,或者它们满足几个表示最高总概率的公式。另一种方法简单地将误差最小化,因此系统忽略了具有高失败概率的公式。

设计人员可以在培训和测试之前选择四个标准中的任何一个。在灵活性和风险规避之间,每个人都有自己的权衡。标准的选择完全取决于任务。例如,在安全危急的情况下,设计者可能会选择限制失败的可能性。但如果失败的后果不那么严重,设计师可以选择赋予机器人更大的灵活性,让它们尝试不同的方法。

有了这些标准,研究人员开发了一种算法,将机器人的信念(指向所需公式的概率分布)转化为一个等价的强化学习问题。该模型将根据机器人决定遵循的规范,对它所采取的动作进行奖励或惩罚。

在要求机器人设置不同配置的模拟中,它在20000次尝试中只犯了6次错误。在真实世界的演示中,它显示了类似于人类执行任务的行为。例如,如果一个项目一开始不可见,机器人将在没有该项目的情况下完成表其余部分的设置。然后,当叉子露出来的时候,它会把叉子放在合适的地方。沙阿说:“这就是灵活性非常重要的地方。”“否则,当它希望放置一个叉子,而没有完成其余的桌子设置时,就会卡住。”

接下来,研究人员希望修改这个系统,以帮助机器人根据口头指令、纠正或用户对机器人性能的评估来改变它们的行为。比如,一个人向机器人演示如何只在一个地方摆桌子。这个人可能会说,‘对所有其他地方做同样的事情’,或者,‘把刀叉放在这里,而不是这里,’”沙阿说。“我们希望开发出一种方法,使系统能够自然地适应这些口头命令,而不需要额外的演示。”