计算机视觉在过去几年发展迅速。从Word Lens到Google Goggles,在任何设备上快速识别文本和对象的能力都远远达不到扫描文档和耗时的OCR。
文档捕获公司ABBYY今天宣布发布其新的实时识别SDK(RTR SDK),承诺将文本捕获提升到一个新的水平。
我在伦敦AI Europe逗留期间看到了这个解决方案,总的来说,令人印象深刻。
使用智能手机摄像头的实时视频,该解决方案可以从最复杂的文档和对象中即时提取文本和数据。例如,如果您正在开发一个要求用户提供护照数据的应用程序,ABBYY的RTR SDK允许您直接从护照中实时捕获所有文档细节。
当ABBYY宣称它实时工作的时候,并没有错。我看到解决方案立马从身份证,银行对账单,驾照等获取信息。更令人印象深刻的是,它可以在63种语言中实现这一目标——这个数字让谷歌目前的图像翻译语言列表相形见绌。
“通过实时识别,应用程序用户可以毫不费力地从打印源、文档和银行卡中输入数据,”ABBYY首席营销官Juppstowe Petie告诉我。“换句话说,实时识别可以改变移动用户体验以及客户和品牌之间的互动。”
SDK可以帮助开发人员立即将实际的文档数据整合到他们的应用程序中。
“事实上,任何需要从打印源输入数据的应用程序都可以受益于更快、更准确和更容易的文本识别和分类,”Stoepetie说。“将实时识别SDK集成到金融、保险、物流、电子商务、消费者或政府应用程序中,可以显著加快复杂的识别、注册或输入流程,例如开户、申请贷款或输入银行卡信息、IBAN或推广代码。”
重要的是它没有安全隐患。
“这项技术非常适合需要遵守安全和隐私规则的过程,因为没有图像被发送到服务器或存储在设备上,”Stoepetie说。
那么RTR SDK的下一步是什么,应用开发者对未来的特性集有什么期待?
“目前,我们正在与神经网络合作,进一步提高识别的准确性,”Stoepetie说。“我们也在研究移动设备中新的人工智能芯片提供的机会。苹果的神经引擎苹果iPhone,华为Mate 10的神经处理单元等新一代移动处理器,为设备AI和机器学习提供动力。结合我们设备上的智能捕捉技术,可以根据用户反馈不断改进”。
ABBYY实时识别SDK从今天开始可以用来集成到iOS和Android应用的新的或现有的应用中。今天,还提供了一个开发工具包,以支持与代码示例和快速入门指南的轻松集成。