如果你对虚拟助手无法令人满意地回答问题感到沮丧,不必担心 - 亚马逊的研究人员就是这样。在上周于巴黎举行的ACM SIGIR信息检索研究与发展会议上发表的一篇新发表的论文中,来自西雅图公司的AlexaAINatural Understanding小组的一个团队提出了一种问答技术(“通过加入多文档回答复杂问题”准知识图的证据“)证明了竞争方法的”明显改进“。
正如第一作者Abdalghani Abujabal在博客文章中解释的那样,大多数计算机化的问答系统采用以下两种方法之一:它们执行文本搜索并尝试推断文本中命名的实体之间的关系,或者点击手工制作的知识图编码这些关系。对于诸如“哪部诺兰电影获得奥斯卡奖但错过了金球奖?”这样的复杂问题,这变得棘手了?文本搜索需要一个包含回答问题所需信息的文档,而知识图则必须代表问题隐含的每个关系明确。
研究人员试图将两个世界中的优点与基于输入问题执行标准文本搜索的系统(普通网络搜索)相结合,使用问题的全文作为搜索字符串。它检索搜索算法排名最高的10个左右的文档,然后应用算法识别每个文档中的命名实体和词性,特别是主题 - 谓词 - 对象三元组,如“Nolan,direct,Inception”和“The Social Network, ,最佳剧本。“最后,它构建了一个即时识别实体和词性的”临时“知识图。
在构建之后,系统利用来自现有图形的句法线索和数据(如词典和嵌入)来确定图形中的哪些名称指向相同的实体。为名称对齐分配置信度分数,搜索算法在图表中查找基石,或者与搜索字符串中的单个单词非常接近的单词。
系统寻找连接基石的路径上的问题的答案,并根据两个标准对它们进行评估:它们来自数据三元组的长度和置信度分数以及名称对齐。它消除了除最短和最高置信度路径之外的所有路径,并从图形中删除了所有基石。以及所有未命名实体的节点。
最后,算法根据几个标准对其余实体进行排名(例如将它们连接到基石的路径的权重以及它们与基石的距离),并且返回剩余的实体作为搜索问题的答案。
该团队报告说,在使用两种不同数据集和三种不同性能指标的36次测试中,他们的系统在34次上超过了三个基线,在其他两次上完成了接近第二,平均为25%(和高达80%)的改善超过表现最佳的基线。他们留下未来的工作,将临时知识图表与现有的策划知识图表相结合,并相应地调整搜索算法。