IBM公司已与麻省理工学院的研究人员合作,创建了一种新方法,可以更有效地训练“视频识别”深度学习模型。
深度学习是机器学习的一个分支,旨在复制人脑如何解决问题。它在语言翻译,图像和语音识别等领域取得了重大突破。
视频识别类似于图像分类,因为深度学习模型基本上试图识别视频中发生的事情,包括所看到的对象和人,他们在做什么等。两者之间的主要区别在于,与简单的静态图像相比,视频具有更多的运动部分,因此训练深度学习模型来理解它们需要花费更多的时间和精力。
麻省理工学院在今天的一篇博客文章中解释说:“据估计,训练视频识别模型所花费的数据最多可以比训练图像分类模型多50倍,处理能力则高8倍。”
当然,没有人喜欢为这种任务投入大量的计算资源,因为它通常会非常昂贵。此外,所需的资源几乎无法在许多AI应用程序正在使用的低功率移动设备上运行视频识别模型。
这些问题激发了由麻省理工学院电气工程与计算机科学系助理教授宋寒领导的研究团队提出了一种更有效的视频识别培训模型。这项新技术极大地减小了视频识别模型的大小,从而加快了训练时间并提高了移动设备的性能。
“我们的目标是使使用低功耗设备的任何人都可以使用AI,” Han说。“要做到这一点,我们需要设计一种高效的AI模型,该模型使用更少的能源并且可以在移动大量AI的边缘设备上平稳运行。”
图像分类模型通过在图像的像素中查找图案来建立其可见图像的表示,从而工作。通过足够的示例,这些模型可以学习识别人,物体以及它们之间的关联方式。
视频识别以类似的方式工作,但是深度学习模型通过使用“三维卷积”在一系列图像(视频帧)中编码时间的流逝而走得更远,这导致了更大,计算量更大的模型。为了减少涉及的计算,Han和他的同事设计了一个称为“时间偏移模块”的操作,该模块将选定视频帧的特征图移动到其相邻帧。通过混合过去,现在和未来的空间表示,该模型无需明确表示即可获得时间流逝感。
这项新技术产生的模型的训练速度比Something-Something视频数据集上的现有模型快三倍,该数据集是密集标记的视频剪辑的集合,向人们展示了人类对日常物体执行预定义的基本动作。
该模型甚至可以实时了解人们的动作,并且非常省电。例如,它使安装在摄像机上的单板计算机能够使用为自行车灯供电所需的相同能量立即对手势进行分类。
Constellation Research Inc.首席分析师兼副总裁Holger Mueller表示,机器学习仍处于早期阶段,采用这种创新方法所能获得的收益也是如此。“今天是MIT和IBM加速发展的时候了视频识别,这恰好是目前最难的ML工作之一。”
IBM和MIT表示,他们的新视频识别模型可以在各个领域中具有有用的应用程序。例如,它可以用于帮助更快地在YouTube或类似服务上对视频进行分类。它还可以使医院在本地而不是在云中运行AI应用程序,从而有助于使机密数据更安全。