Facebook的研究人员最近编制了一个包含500万个角色和7亿个基于角色的对话的数据集。这个数据库可以用来训练端到端对话系统,从而在计算机代理和人类之间产生更有吸引力和丰富的对话。
对话系统,或称为会话代理(CA),是设计用来通过文本、语音、图形或其他方法以一致的方式与人类进行交流的计算机系统。到目前为止,基于神经结构的对话系统,如LSTMs或内存网络,已经被发现在实现流畅的通信方面特别有希望,特别是在直接训练对话日志时。
研究人员在他们的论文中写道:“他们的主要优势之一是,他们可以依靠现有对话的大量数据源来学习涵盖各种领域的知识,而不需要任何专家知识。”“然而,另一方面,他们也表现出有限的参与,尤其是在聊天设置中:他们缺乏一致性,不像(甚至部分)脚本化的聊天机器人那样利用主动参与策略。”
在最近的一项研究中,蒙特利尔学习算法研究所(MILA)和Facebook AI的另一组研究人员创建了一个名为PERSONA-CHAT的数据集,其中包括带有文本配置文件(personas)的代理之间的对话。他们发现,针对特定人物角色训练对话系统可以提高他们在互动中的参与度。
研究人员在论文中解释道:“然而,这个人物聊天数据集是使用基于土耳其机器人的人工数据收集机制创建的。”“因此,对话框和人物角色都不能完全代表真实的用户-机器人交互,数据集的覆盖范围仍然有限,包含超过1k个不同的人物角色。”
为了解决之前编译的数据集的局限性,Facebook的研究人员创建了一个新的、大规模的基于人物角色的对话数据集,由从在线平台Reddit上提取的对话组成。他们的研究采用更具代表性的互动方式,将前人的工作向前推进了一步。
研究人员写道:“在这篇论文中,我们使用之前从Reddit上提取的对话,建立了一个非常大的基于人物角色的对话数据集。”“使用简单的启发式方法,我们创建了一个包含超过500万个角色的语料库,涵盖超过7亿次对话。”
为了评估其有效性,研究人员在他们新开发的数据集上训练了基于人物角色的端到端对话系统。在数据集上训练的系统能够进行更有吸引力的对话,比其他在训练期间没有访问人物角色的会话代理表现得更好。
有趣的是,他们的数据集产生了最先进的结果,即使对话系统仅仅是预先训练过的。在未来,这些发现可能会导致更有吸引力的聊天机器人的发展,这些机器人也可以个性化和训练,以获得特定的人物角色。
研究人员写道:“我们发现,训练模型使答案与作者的个性和背景相一致,可以提高预测效果。”“由于培训前的培训导致了工作表现的显著提高,未来的工作可以针对不同的对话系统对这种模式进行微调。”