语言模型预训练是一种通过使机器学习系统根据其上下文预测单词来“教”机器学习系统将其上下文化的技术,该技术已经在一系列自然语言处理目标方面取得了进步。但是,像Google的BERT这样的模型在设计上是双向的(意味着它们借鉴了词的左和词的上下文来形成预测),因此不适合通过大量修改自然生成语言的任务。
这就是Microsoft Research的科学家研究名为UNIfied预训练语言模型(UniLM)的另一种方法的原因,该方法可以完成单向,序列到序列和双向预测任务,并且可以针对自然语言理解和生成进行微调。他们声称它在流行的基准上比BERT优越,在摘要摘要,生成性问题解答和语言生成数据集的样本上获得了最新的结果。
UniLM是一个多层网络,其核心是由Transformer AI模型组成的,这些模型共同针对大量文本进行了预训练,并针对语言建模进行了优化。对于初学者,变形金刚包含相互连接的神经元(功能),这些神经元从输入数据传输信号并调整每个连接的强度(权重)。这是所有AI系统提取特征并学习进行预测的方式,但是Transformers十分注意,每个输出元素都连接到每个输入元素。实际上,它们之间的权重是动态计算的。
研究人员认为,经过预训练的UniLM与BERT类似,因为它可以进行微调(如有必要,还可以附加任务特定的层)以适应各种下游任务。但是与BERT不同,UniLM可以使用不同的自我注意掩码进行配置,以汇总不同类型语言模型的上下文。此外,由于其预训练的统一性,Transformer网络可以共享参数(从历史训练中学到的数据),这使学习到的文本表示更加通用,从而减轻了对任何单个任务的过度拟合(当系统对训练数据建模得很好时) 。
研究人员报告说,UniLM在使用英语维基百科和开源BookCorpus的文章后的总词汇量为28,996,经过了预培训,其跨语言任务的表现令人印象深刻。具体来说,他们说它取得了与GLUE基准测试(评估一般语言理解)上的BERT相当的结果,并且获得了两个问答数据集,并且在五个自然语言生成方面均优于以前的最新模型数据集,包括CNN / DailyMail(测试摘要),Gigaword(抽象摘要),SQuAD(问题生成),CoQA(生成性问题回答)和DSTC7(对话响应生成)。
该团队通过在“网络规模”文本语料库上训练较大的模型来推动当前方法的局限,从而留给未来的工作。他们还希望研究扩展UniLM以支持跨语言任务。
代码和预训练模型可在GitHub上获得。