Amazon Web Services Inc.的Textract服务现已开始提供,该服务使用机器学习从包括表格和表格的文档中提取文本和数据。
Textract是 在11月的AWS re:Invent会议期间首次宣布的,它是专为不熟悉该主题的人们使用的几种新机器学习服务之一。
亚马逊认为这项服务是对传统光学字符识别软件的一项重大改进,该软件以前是企业用来从文档中提取基于文本的数据的工具。传统OCR的问题在于它无法识别表单和表格上常见的布局。结果,尝试从那些类型的源中提取数据时,OCR软件通常不准确。
亚马逊表示,Textract更像是一种“ OCR ++服务”,因为它可以识别带有文档的表,并了解数据放在行和列中。
AWS机器学习副总裁Swami Sivasubramanian在一份声明中说:“ Amazon Textract的强大功能是,它几乎可以从任何文档中准确地提取文本和结构化数据,而无需任何机器学习经验。” “随后,开发人员可以使用我们的数据库和分析服务(例如Amazon Elasticsearch Service,Amazon DynamoDB和Amazon Athena)分析和查询提取的文本和数据,并与Amazon Comprehend,Amazon Comprehend Medical,Amazon Translate和Amazon等其他机器学习服务集成SageMaker可以帮助客户从提取的文本和数据中获得更深层的含义。”
Textract支持多种图像格式,包括常规的JPEG和PNG照片文件,扫描和PDF文档。
Moor Insights&Strategy的分析师Patrick Moorhead激动地表示,亚马逊宣布Textract现在可以普遍使用:
Moorhead告诉SiliconANGLE:“我相信Textract将为仍然依赖打印文档的医疗保健等行业改变游戏规则。” “与OCR不同,Textract在位置上识别文本,因此它是准确且有用的。”
自从去年以有限的预览版本提供Textract以来,许多客户一直在使用它,其中包括The Globe and Mail Inc.,PricewaterhouseCoopers,UiPath Inc.和Alfresco Software Inc.。
目前,Textract在四个AWS地区中可用,分别是美国东部(俄亥俄州),美国东部(弗吉尼亚北部),美国西部(俄勒冈)和欧盟(爱尔兰)。该公司表示,该服务将在今年晚些时候扩展到更多地区。