美国陆军研究实验室和卡内基梅隆大学机器人研究所的研究人员开发出一种新技术,可以在最小的人为监督下快速教授机器人新颖的遍历行为。
该技术允许移动机器人平台在环境中自主导航,同时执行人在期望情况下对机器人期望的动作。
该研究的实验最近在澳大利亚布里斯班举行的电气和电子工程师协会机器人与自动化国际会议上发表并发表。
ARL研究员Drs。Maggie Wigness和John Rogers在两个半小时的互动演示中与数百名与会者进行了面对面的讨论。
根据Wigness的说法,研究团队的自主系统研究目标之一是为士兵提供可靠的自主机器人队友。
“如果一个机器人充当队友,任务可以更快地完成,并且可以获得更多的态势感知,”威恩斯说。“此外,机器人队友可以作为潜在危险场景的初步调查员,从而使士兵远离伤害。”
为实现这一目标,Wigness表示机器人必须能够利用其学到的智能来感知,推理和做出决策。
“这项研究的重点是如何从一些人体示例演示中学习机器人智能,”威根斯说。“学习过程很快,只需要极少的人工演示,使其成为当任务需求发生变化时在现场进行实时学习的理想学习技术。”
ARL和CMU的研究人员将他们的初步研究重点放在了解机器人对环境中地形和物体的视觉感知方面的机器人遍历行为。
更具体地说,机器人被教导如何在靠近道路边缘的同时从环境中的各个点导航,以及如何使用建筑物作为覆盖物秘密地穿越。
研究人员表示,根据不同的任务任务,可以在机器人操作期间激活最合适的学习遍历行为。
这是通过利用逆最优控制来完成的,反向最优控制通常也称为逆强化学习,它是一类机器学习,试图在给定已知最优策略的情况下恢复奖励函数。
在这种情况下,人类通过沿着最能代表要学习的行为的轨迹驱动机器人来展示最优策略。
然后,这些轨迹样本与视觉地形/对象特征(例如草地,道路和建筑物)相关,以学习关于这些环境特征的奖励功能。
虽然在机器人技术领域存在类似的研究,但ARL正在做的事情尤为独特。
“与其他正在进行的研究相比,我们在ARL关注的挑战和操作场景非常独特,”Wigness说。“我们寻求创造在战斗机环境中可靠运行的智能机器人系统,这意味着场景高度非结构化,可能有噪音,我们需要在相对较少的环境当前状态的先验知识的情况下这样做。事实上我们的问题声明是如此不同于许多其他研究人员允许ARL在自主系统研究中产生巨大影响。我们的技术,通过问题的定义,必须对噪声具有鲁棒性,并且能够用相对少量的数据进行学习。 “
根据Wigness的说法,这项初步研究已经帮助研究人员证明了快速学习遍历行为编码的可行性。
“随着我们将这项研究推向新的水平,我们将开始关注更复杂的行为,这可能需要从不仅仅是视觉感知功能中学习,”Wigness说。“我们的学习框架足够灵活,可以使用可能与环境有关的先验英特尔。这可能包括有关对象或已知具有可靠通信的区域可见的区域的信息。此附加信息可能与某些任务场景相关并且学习这些功能可以增强移动机器人的智能。“
研究人员还在探索这种行为学习如何在不同的移动平台之间转移。
他们迄今为止的评估是使用一个小型无人驾驶Clearpath Husky机器人进行的,该机器人具有相对较低的视野。
“将这项技术转移到更大的平台将引入新的感知观点和不同的平台机动能力,”Wigness说。“学习编码可以在不同平台之间轻松传输的行为,对于异构机器人团队来说非常有价值。在这种情况下,行为可以在一个平台而不是每个平台上单独学习。”
该研究由陆军机器人协作技术联盟(RCTA)资助,该联盟将政府,工业和学术机构聚集在一起,以解决部署未来军用无人地面车辆系统所需的研究和开发,范围从便携式到地面战车。
罗杰斯说:“ARL的定位是积极与RCTA的其他成员合作,利用学术界顶尖研究人员的努力来解决军队问题。”“这项特殊的研究工作是通过我们的内部研究综合了RCTA的几个组成部分;如果我们不能这么紧密地合作,就不可能。”
最终,这项研究对未来的战场至关重要,士兵们将更有信心依靠机器人协助他们执行任务。
罗杰斯说:“下一代战车在未来战场上自动操纵optempo的能力将使强大的新战术成为可能,同时消除士兵的风险。”“如果NGCV遇到需要远程操作的无法预料的情况,我们的方法可以用来学习将来自主处理这些类型的情况。”