最先进的机器学习算法可以从照片中提取二维对象,并在三个维度上忠实地渲染它们。这是一种适用于增强现实应用程序,机器人和导航的技术,这就是为什么它成为Facebook研究的急切领域。
在首尔举行的国际计算机视觉会议(ICCV)召开前的今天的博客中,Facebook强调了其在智能内容理解方面的最新进展。它说,它们的系统一起可以用于检测复杂的前景和背景物体,例如椅子的腿或重叠的家具。
Facebook研究人员Georgia Gkioxari写道:“ [我们的研究建立在使用深度学习来预测和定位图像中对象的最新进展的基础上,以及用于3D形状理解的新工具和体系结构,如体素,点云和网格,” Shubham Tulsiani和David Novotny在博客文章中。“三维理解将在提高AI系统在现实世界中更紧密地理解,解释和操作的能力中发挥核心作用。”
Mesh R-CNN是受关注的作品之一,该方法能够从杂乱和遮挡的物体的图像中预测三维形状。
Facebook研究人员表示,他们通过网格预测分支增强了开源Mask R-CNN的二维对象分割系统,并通过包含高度优化的三维运算符的Torch3d库进一步增强了该功能。Mesh R-CNN有效地使用了Mask R-CNN对图像中的各个对象进行检测和分类,然后使用上述预测器推断三维形状。
Facebook说,根据公开的Pix3D语料库进行评估,Mesh R-CNN成功检测到所有类别的对象,并估计了整个家具场景中它们的完整三维形状。在单独的数据集ShapeNet上,Mesh R-CNN的相对裕度比以前的工作高出7%。
Facebook开发的另一种系统-Canonical 3D Pose Networks(通常简称为C3DPO)-解决了无法训练网格和相应图像的情况。它构建了三维关键点模型的重建,并使用二维关键点监督获得了最新的重建结果。(在这种情况下,关键点是指对象的跟踪部分,这些对象提供了有关几何及其视点变化的一组线索。)
C3DPO利用重建模型预测相应摄像机视点和三维关键点位置的参数。一个辅助组件与模型一起学习,以解决在三维视点和形状的因式分解中引入的歧义。
Facebook指出,由于内存限制,这种重建以前是可以实现的。C3DPO的体系结构可以实现三维重建,而在这种情况下,用于捕获的硬件(例如大型对象)是不可行的。
“ [三维]计算机视觉有许多开放的研究问题,我们正在尝试多种问题陈述,技术和监督方法,就像我们对二维理解所做的探索那样,探索了推动该领域前进的最佳方法,” Gkioxari,Tulsiani和Novotny写道。“随着数字世界适应并转变为使用3D照片和沉浸式AR和VR体验等产品,我们需要不断推动复杂的系统来更准确地理解视觉场景中的对象并与之交互。”