互联网资讯：AWS宣布其文档阅读服务Textract全面上市

导读互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天

互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网，上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件，接下来这篇文章给大家说说互联网科技的一角。

Amazon Web Services Inc.的Textract服务现已开始提供，该服务使用机器学习从包括表格和表格的文档中提取文本和数据。

Textract是在11月的AWS re：Invent会议期间首次宣布的，它是专为不熟悉该主题的人们使用的几种新机器学习服务之一。

亚马逊认为这项服务是对传统光学字符识别软件的一项重大改进，该软件以前是企业用来从文档中提取基于文本的数据的工具。传统OCR的问题在于它无法识别表单和表格上常见的布局。结果，尝试从那些类型的源中提取数据时，OCR软件通常不准确。

亚马逊表示，Textract更像是一种“ OCR ++服务”，因为它可以识别带有文档的表，并了解数据放在行和列中。

AWS机器学习副总裁Swami Sivasubramanian在一份声明中说：“ Amazon Textract的强大功能是，它几乎可以从任何文档中准确地提取文本和结构化数据，而无需任何机器学习经验。” “随后，开发人员可以使用我们的数据库和分析服务(例如Amazon Elasticsearch Service，Amazon DynamoDB和Amazon Athena)分析和查询提取的文本和数据，并与Amazon Comprehend，Amazon Comprehend Medical，Amazon Translate和Amazon等其他机器学习服务集成SageMaker可以帮助客户从提取的文本和数据中获得更深层的含义。”

Textract支持多种图像格式，包括常规的JPEG和PNG照片文件，扫描和PDF文档。

Moor Insights&Strategy的分析师Patrick Moorhead激动地表示，亚马逊宣布Textract现在可以普遍使用：

Moorhead告诉SiliconANGLE：“我相信Textract将为仍然依赖打印文档的医疗保健等行业改变游戏规则。” “与OCR不同，Textract在位置上识别文本，因此它是准确且有用的。”

自从去年以有限的预览版本提供Textract以来，许多客户一直在使用它，其中包括The Globe and Mail Inc.，PricewaterhouseCoopers，UiPath Inc.和Alfresco Software Inc.。

目前，Textract在四个AWS地区中可用，分别是美国东部(俄亥俄州)，美国东部(弗吉尼亚北部)，美国西部(俄勒冈)和欧盟(爱尔兰)。该公司表示，该服务将在今年晚些时候扩展到更多地区。