经过一年多的测试,Google LLC今天推出了非Beta测试模式的数据集搜索服务,其新功能旨在使用户更快地找到信息。
数据集搜索是该公司搜索引擎的一个版本,专门用于浏览科学和技术信息的集合。到目前为止,Google已索引了将近2500万个数据集,这些数据集涉及从火山活动到幼犬的社会行为等主题。这些信息来自从事研究活动的政府,大学和其他组织。
随着人工智能的迅速普及,开源数据在技术领域中发挥着越来越重要的作用。AI越复杂,则需要处理的训练数据就越多,以准备投入生产。AI开发人员可以集中式搜索记录的门户(例如数据集搜索)有可能成为机器学习项目的宝贵工具。
Google标记了Dataset Search从Beta版开始推出的新功能,旨在使该服务更加有用。首先,该公司声称已“显着改善”了信息存储库描述的质量。还有一些新的过滤器,使用户可以根据所需的数据集来缩小搜索范围。
Google研究科学家娜塔莎·诺伊(Natasha Noy)在博客中写道:“现在,您可以根据所需的数据集的类型 (例如表格,图像,文本)或是否可以从提供商处免费获取数据集来过滤结果,” 。“如果数据集是关于某个地理区域的,则可以看到地图。”
最后,该服务现在可以在移动设备上访问。Noy告诉The Verge,Google计划通过添加功能让用户“在不一定知道他们要寻找的内容时”探索数据集,从而继续改进数据集搜索。
人工智能开发人员远非仅有知识工作者可以在其项目中利用该服务。全球有数十万人使用数据集搜索,包括学术研究人员,业务分析人员和学生。
这项服务的基础始于2011年,当时Google LLC,Yahoo!微软公司发起了一个名为Schema.org的联合开源项目。两家公司着手创建一种通用标准,用于格式化包含结构化数据(例如研究文件)的网页。此后,Schema.org已被世界上大多数国家的政府以及众多的学术机构所采用,并且Dataset Search使用该标准来为其提供给用户的记录建立索引。