互联网资讯：Google推出了具有新功能的测试版之外的数据集搜索

导读互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天

互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网，上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件，接下来这篇文章给大家说说互联网科技的一角。

经过一年多的测试，Google LLC今天推出了非Beta测试模式的数据集搜索服务，其新功能旨在使用户更快地找到信息。

数据集搜索是该公司搜索引擎的一个版本，专门用于浏览科学和技术信息的集合。到目前为止，Google已索引了将近2500万个数据集，这些数据集涉及从火山活动到幼犬的社会行为等主题。这些信息来自从事研究活动的政府，大学和其他组织。

随着人工智能的迅速普及，开源数据在技术领域中发挥着越来越重要的作用。AI越复杂，则需要处理的训练数据就越多，以准备投入生产。AI开发人员可以集中式搜索记录的门户(例如数据集搜索)有可能成为机器学习项目的宝贵工具。

Google标记了Dataset Search从Beta版开始推出的新功能，旨在使该服务更加有用。首先，该公司声称已“显着改善”了信息存储库描述的质量。还有一些新的过滤器，使用户可以根据所需的数据集来缩小搜索范围。

Google研究科学家娜塔莎·诺伊(Natasha Noy)在博客中写道：“现在，您可以根据所需的数据集的类型 (例如表格，图像，文本)或是否可以从提供商处免费获取数据集来过滤结果，” 。“如果数据集是关于某个地理区域的，则可以看到地图。”

最后，该服务现在可以在移动设备上访问。Noy告诉The Verge，Google计划通过添加功能让用户“在不一定知道他们要寻找的内容时”探索数据集，从而继续改进数据集搜索。

人工智能开发人员远非仅有知识工作者可以在其项目中利用该服务。全球有数十万人使用数据集搜索，包括学术研究人员，业务分析人员和学生。

这项服务的基础始于2011年，当时Google LLC，Yahoo!微软公司发起了一个名为Schema.org的联合开源项目。两家公司着手创建一种通用标准，用于格式化包含结构化数据(例如研究文件)的网页。此后，Schema.org已被世界上大多数国家的政府以及众多的学术机构所采用，并且Dataset Search使用该标准来为其提供给用户的记录建立索引。