首页 > 要闻 > > 正文
2019-11-07 15:45:43

帮助计算机填补视频帧之间的空白

导读 鉴于只有几帧视频,人类通常可以猜测正在发生的事情并将在屏幕上发生。如果我们看到堆叠罐的早期框架,一个手指在堆栈底部的中间框架,以及

鉴于只有几帧视频,人类通常可以猜测正在发生的事情并将在屏幕上发生。如果我们看到堆叠罐的早期框架,一个手指在堆栈底部的中间框架,以及显示罐头翻倒的后期框架,我们可以猜测手指击倒了罐头。然而,计算机正在努力解决这个问题。

在本周欧洲计算机视觉会议上发表的一篇论文中,麻省理工学院的研究人员描述了一个附加模块,它可以帮助称为卷积神经网络(CNN)的人工智能系统填补视频帧之间的空白,从而大大改善网络的活动识别。 。

研究人员的模块称为时间关系网络(TRN),它可以在不同时间学习视频中对象的变化。它通过分析描述视频不同阶段活动的几个关键帧来实现这一点 - 例如堆叠的物体然后被击倒。然后,使用相同的过程,它可以识别新视频中的相同类型的活动。

在实验中,该模块在识别数百种基本活动方面表现优于现有模型,例如戳对象以使其落下,在空中抛掷某些东西,并竖起大拇指。它还可以更准确地预测视频中接下来会发生什么 - 例如,显示两只手在一张纸上做一个小小的撕裂 - 只给出少量的早期帧。

有一天,该模块可用于帮助机器人更好地了解周围发生的事情。

“我们建立了一个人工智能系统来识别物体的转换,而不是物体的外观,”Bolei Zhou说,他是计算机科学和人工智能实验室(CSAIL)的前博士生,现在是计算机科学的助理教授。香港中文大学。“系统不会遍历所有帧 - 它会拾取关键帧,并利用帧的时间关系识别正在发生的事情。这可以提高系统的效率,并使其准确地实时运行。”

该论文的共同作者是CSAIL首席研究员Antonio Torralba,他也是电气工程和计算机科学系的教授;CSAIL首席研究科学家Aude Oliva;和CSAIL研究助理Alex Andonian。

拾起关键帧

目前用于活动识别的两个常见CNN模块存在效率和精度缺陷。一个模型是准确的,但必须在进行预测之前分析每个视频帧,这在计算上是昂贵且缓慢的。另一种称为双流网络的类型不太准确但效率更高。它使用一个流来提取一个视频帧的特征,然后将结果与“光流”合并,这是一个关于每个像素移动的提取信息流。光流在提取时也是计算上昂贵的,因此模型仍然不那么有效。

“我们希望在这两种模型之间起作用 - 提高效率和准确性,”周说。

研究人员在各种已完成活动的短视频的三个众包数据集上训练和测试了他们的模块。由TwentyBN公司建造的第一个名为Something-Something的数据集在174个动作类别中拥有超过200,000个视频,例如戳对象以使其翻倒或提升对象。第二个数据集Jester包含近150,000个视频,其中有27种不同的手势,例如竖起大拇指或向左滑动。第三个是由卡内基梅隆大学研究人员建造的Charades,拥有近10,000个视频,共有157项分类活动,如自行车或打篮球。

当给出视频文件时,研究人员的模块同时处理有序帧 - 分为两组,三组和四组 - 间隔一段时间。然后它会快速分配对象在这些帧上的转换可能与特定活动类匹配。例如,如果它处理两个帧,其中后一个帧在屏幕底部显示一个对象,而较早的帧在顶部显示该对象,则它将为活动类分配“概率下移”的概率很高。如果第三帧在屏幕中间显示对象,则该概率会增加得更多,依此类推。由此,它在大多数代表某类活动的帧中学习对象变换特征。

认识和预测活动

在测试中,配备新模块的CNN使用两个帧精确识别许多活动,但通过采样更多帧来提高准确度。对于Jester来说,该模块在活动识别方面达到了95%的最高准确度,击败了几个现有模型。

它甚至在模棱两可的分类中猜对了:例如,Something-Something包括诸如“假装开书”和“开书”之类的行为。为了辨别两者之间,模块只是采样了几个关键帧,例如,在早期帧中显示了一本书靠近书本,然后在书上,然后在稍后的帧中从书中移开。

一些其他活动识别模型也处理关键帧,但不考虑帧中的时间关系,这降低了它们的准确性。研究人员报告说,他们的TRN模块在某些测试中的准确度几乎是那些关键帧模型的两倍。

在给定有限帧的情况下,该模块在预测活动方面也优于模型。在处理了前25%的帧后,模块实现了比基线模型高几个百分点的精度。凭借50%的框架,它的精度提高了10%到40%。例子包括根据早期帧中两只手如何定位在纸张上来确定纸张是否会被撕裂一点,并预测面向前方的凸起的手将向下滑动。

“这对机器人应用非常重要,”周说。“你希望[机器人]预测并预测在你采取具体行动的早期会发生什么。”

接下来,研究人员旨在提高模块的复杂性。第一步是实现对象识别和活动识别。然后,他们希望增加“直观物理学”,这意味着帮助它理解物体的真实物理属性。“因为我们了解这些视频中的大量物理知识,我们可以训练模块来学习这些物理定律并使用它来识别新视频,”周说。“我们也开源所有的代码和模型。活动理解现在是一个令人兴奋的人工智能领域。”