这是一个奇迹,大多数企业设法在迷宫式存储设置中找到任何东西。公司越来越多地利用公共云和私有云的组合,这些公共云和私有云并不总能很好地协同工作,而员工搜索查询的粗犷性使得解析比网络搜索更难。
幸运的是,IBM最近在自然语言处理方面的工作有望解决企业领域中的这些和其他搜索挑战。在佛罗伦萨举行的2019年计算语言学协会年会上提交的四篇论文中,研究人员团队提出了新颖的语义分析技术和将不完整知识库与语料库整合的方法,以及招募主题的工具。专家微调可解释的基于规则的系统。
第一项研究调查了抽象意义表示,或AMR,一种旨在允许类似句子共享相同表示的数据结构。部分归功于强化学习,一种利用奖励推动软件政策实现目标的人工智能培训技术,该论文的共同作者设法将目标图的语义准确度从之前的最先进技术74.4%提高到75.5%。
另一个团队提出了一种查询方法,该方法跨多个知识库统一语义解析,并利用查询程序中的结构相似性来搜索各种知识库。他们的工作与IBM科学家研究不完整的知识库以及如何将它们与文本语料库融合在一起,他们断言这种方法可以更好地表达对知识库或单个文档中未完全解决的问题的答案。
在最后一篇论文中,研究人员描述了HEIDL(人类在循环语言表达与深度学习的简称),这是一种通过精确和回忆对机器生成的表达进行排序的工具。在一项实验中,IBM在近150份合同中以20,000个句子对与终止,通信和支付等关键条款相关的注释短语进行了解释,HEIDL对此进行了分析,以提供高级别的见解。一组数据科学家使用它来确定平均七个规则,这些规则在大约半小时内自动标记合同,如果手工进行,共同作者声称这个过程需要一周或更长时间。
“企业[自然语言处理]系统经常受到许多因素的挑战,这些因素包括理解异构的信息孤岛,处理不完整的数据,从少量数据中训练准确的模型以及导航不断变化的新内容环境,产品,术语和其他信息不断被添加,“IBM Research高级经理Salim Roukos在博客中写道。“[我们]正在探索......不同的主题来应对这些挑战并改善企业领域的[自然语言处理]。”