首页 > 要闻 > > 正文
2019-11-07 15:51:30

DeepMind将多维数据集堆叠技能从仿真转移到物理机器人

导读 教机器人手臂堆积积木的最简单方法是什么?在最近的一项研究中,谷歌母公司Alphabet的DeepMind的研究人员一直在寻求一个微妙的问题。AI解决

教机器人手臂堆积积木的最简单方法是什么?在最近的一项研究中,谷歌母公司Alphabet的DeepMind的研究人员一直在寻求一个微妙的问题。AI解决问题的方法总是需要大量数据,而机器人技术很难获得这些数据。但是,即使假设有足够的数据来训练机器学习模型,但如果没有人工注释,它几乎是无用的。

不过,得益于在模拟环境中从观察中学习的系统(MuJoCo),DeepMind科学家找到了一种使之起作用的方法,并将其知识转移到了现实世界中。在一份详细介绍他们研究的预印本论文中,他们声称他们的方法可以指导基于视觉的代理仅用五个小时的机器人数据来堆叠多维数据集以进行调整。

上周,OpenAI发表了一篇相关论文,该论文研究了将技能从仿真中的代理人转移到现实世界中的机器人的方法,以解决Rubik的多维数据集任务。然而,与这项研究采用复杂的机械手进行物体操纵的研究不同,DeepMind团队采用了基本的Sawyer抓手。

该小组提出了两步适应程序。首先,使用模拟环境来学习一种策略,该策略可通过合成图像和本体感知(位置和运动的感知)来解决多维数据集堆叠任务。两个代理程序(可访问模拟器状态的基于状态的代理程序和使用原始像素观测值的基于视觉的代理程序)同时进行训练,基于状态的代理程序提供了用于增强学习基于视觉的代理程序的数据。

第二步,未标记的真实图像序列有助于使状态表示适应真实域,从而提供适用于仿真和现实的通用目标。研究人员说,它通过利用受过模拟训练的代理收集的未标记数据,减轻了模拟与真实机器人之间差距的负面影响。

在实验中,研究人员报告说,他们的“从模拟到真实”的转移学习方法比领域随机化和其他自我监督的适应技术产生了“明显的改善”。平均而言,它成功地将多维数据集堆叠了62%的时间-远好于基线的12%的成功率。

该论文的合著者写道:“我们的代理商从视觉上与现实世界互动,这使我们的方法适用于大量的操纵任务。”“多维数据集堆叠任务强调了长距离操纵任务的通用方法。最重要的是,它能够更好地利用可用的未标记真实世界数据,从而提高堆叠性能。”