Google LLC今天推出了新版本的Open Images(其用于人工智能研究的照片数据集),其中添加了数百万个其他数据点,并提供了一个被称为“本地化叙述”的功能,旨在帮助学术项目。
Open Images于2016年首次发布,其中包含900万张带有描述性标签的照片。这样的数据集在AI生态系统中起着重要作用。研究人员使用它们来开发各种新的机器学习模型,以执行诸如对象识别和自动驾驶等任务。
除了提供可免费使用的照片外,Open Images还包含数百万条对AI培训有价值的注释。未经训练的神经网络无法自行识别照片中的对象,因此需要诸如注释之类的元数据来了解屏幕上的内容。元数据越详细,AI可以学习的越好。
今天发布的新版本的“开放图像”增加了2350万张“照片级”标签,这些标签已经过人类验证,可以对图像中发生的情况提供一般描述。该数据库现在总共有5990万个这样的标签。Google还添加了更多的情境注释,包括250万个用于描述照片中人物所执行动作的标签,以及另外391,000个用于描述对象之间关系的标签。
但是,主要亮点是Google的本地化叙述。这些是搜索巨头开发的一种新型注释,它希望AI模型能够比旧的注释方法收集更多有关图像的信息。
Google通过让人类注释者将鼠标悬停在照片中的每个对象上并使用自己的文字进行描述来生成本地化的叙事。然后将其光标移动的记录与自然语言描述配对,以便每个单词都可以与其所应用的对象相关联。谷歌说,这种方法将使AI模型在Open Images数据集上进行训练时可以更有效地学习。
“为了了解这些本地化叙述所代表的其他数据量,鼠标轨迹的总长度约为6400公里,如果不停地大声朗读,所有叙述都将花费约1.5年的时间来聆听,” Google研究科学家Jordi Pont-Tuset在博客文章中进行了详细介绍。
到目前为止,Google已为约500,000个Open Images文件创建了本地化的叙述。Pont-Tuset写道,该更新代表“在改善用于图像分类,对象检测,视觉关系检测和实例分割的统一注释方面的重要的定性和定量步骤,” Pont-Tuset写道。“我们希望Open Images V6能够进一步促进人们对真实场景的理解。”