首页 > 经济 > > 正文
2022-02-14 07:12:10

脸书正在使用无监督机器学习进行翻译

导读 脸书已经开始使用无监督的机器学习在其平台上翻译内容,因为它没有太多从一种语言翻译成另一种语言的例子——例如,从英语翻译成乌尔都语。

脸书已经开始使用无监督的机器学习在其平台上翻译内容,因为它没有太多从一种语言翻译成另一种语言的例子——例如,从英语翻译成乌尔都语。

Facebook正在使用无人监督的机器学习进行翻译

该方法由脸书人工智能研究所(FAIR)设计,并在FAIR与公司应用机器学习部门合作的平台上使用。FAIR巴黎实验室主任安托万博尔德斯在电话采访中告诉VentureBeat。

这种方法的执行和监督模式与从一种语言到另一种语言的100,000次翻译相同,并且它优于脸书的语言匹配系统,只有很少的例子。

“当你处理像英语-乌尔都语这样的案件时,[翻译]很少,我们的系统表明我们的系统比监督系统更好。因此,训练一个无监督的系统比没有足够数据的有监督的系统要好,”Bordes说。

人工智能研究人员纪尧姆兰普勒和马克奥雷利奥兰扎托领导的工作成果将于今年秋天在2018年欧洲多媒体展上展出。

Bordes是早期的公平竞争员工,他称这项研究是他见过的最好的研究。Bordes说,这项研究的重点是翻译,这是脸书的一项重要任务,也是FAIR自2013年以来一直关注的问题。

“我们现在可以去一个星球,在那里人们可以说一种没有人会说的语言——嗯,外星人——你实际上可以试着合理地翻译那里所说的话,”博尔德斯说。“你可以在一篇古代手稿中找到未被破译的语言,你实际上可以理解它的功能,所以这真的是这项工作的一个突破,我想这也是我非常兴奋的原因。”

像其他FAIR项目一样,AI系统将是开源的,可以在GitHub上下载。今年早些时候,脸书开放了源翻译,一个目前用于脸书翻译的人工智能系统。

翻译等系统需要训练大量的标签数据。例如,从法语到英语的翻译需要数百万个样本句子来创建一个能够理解这两种语言的系统。因此,当脸书没有很多从一种特定语言翻译成另一种语言的例子时,翻译是非常困难的。

这些案例中使用的人工智能系统现在结合了三个要素:逐字翻译、语言模型和反向翻译。

训练逐字翻译根据句子中前五个单词和后五个单词的上下文来预测单词。这种单词嵌入方法是兰普勒和兰扎托去年秋天联合撰写的一篇论文中提出的。

然后,使用经过大量数据训练的语言模型(如书籍或其他书面文本)以对英语用户或说乌尔都语的人有意义的结构排列句子。

最后,逆向翻译被用来改进逐字翻译和语言模型的翻译。他说,这些方法并不新鲜,但三者的结合正在产生效果。

“使用这两个系统[和]在两种语言之间来回翻译,我可以一起训练它们,试图互相提高,所以这真的是本文的核心。使用[翻译模型]这个词,第一次翻译使用语言模型,然后尝试用反向翻译的思想来改进,”他说。

博尔德斯说,脸书未来将探索这种人工智能系统用于其他形式的翻译,但它需要更多的数据,并与专业翻译合作来验证结果。