亚马逊Alexa在一次性理解多步请求方面越来越精通。Alexa AI组织的应用科学家Sanchit Agarwal在今天上午发表的一篇论文(“口语协调的解析协调”)和附带的博文中,详细介绍了一种将语音命令映射为行为的口语理解(SLU)系统(意图)和实体(槽),准确率比现成的替代方案高26%%。
阿加瓦尔和他的同事们的工作将于本月晚些时候在希腊雅典举行的IEEE口头技术会议上展出。亚马逊科学家描述了一种人工智能驱动的方法,可以将Alexa的技能选择错误率降低40%。这一天,他们的研究消息传来。
“狭义的(SLU系统)通常有严格的限制,例如,只允许一个意图与话语相关联,并且只有一个值与一个槽类型相关联,”他写道。“我们[建议]一种方法,使SLU系统能够理解复合实体和意图。”
正如Agarwal解释的那样,他和他的同事们使用了一种深度神经网络——一种称为神经元的数学功能层,其生物学等效物是一种松散的模型——从口语数据的结构中“教学”。首先,根据指示应该被视为集合的短语或“块”的方案来标记语料库:“B”指示块的开始,“I”指示块的内部,或者“O”指示大块外部的单词。然后,在训练之前,嵌入单词,这包括用向量替换它们来表示它们。
接下来,嵌入被转移到双向长短期记忆(双向LSTM)网络,这是一个可以学习长期依赖的递归神经网络,它输出输入句子中每个单词的上下文嵌入。这些输出与神经网络层结合,神经网络层将每个嵌入映射到输出“B”、“I”和“O”标签上的分布,并根据每个输入单词最可能的输出标签对其进行分类。
另一层(称为条件随机场或CRF)学习关联输出标签,并从所有可能的序列中选择最可能的标签。多亏了一种叫做对抗训练的技术——在此期间,网络的预测标签得到了评估——模型学会了泛化。
“而不是为不同的插槽类型(例如,列表项、食物项、设备等)构建单独的解析器。),我们构建了一个可以处理多种槽类型的解析器,”Agarwal说。“例如,我们的解析器可以成功识别[列表项]‘在我的列表中添加苹果花生酱和果冻’和[电器]换句话说就是‘打开客厅灯和厨房灯’。