首页 > 科技 > > 正文
2020-04-23 16:13:21

Facebook的人工智能在过去两年里识别了数亿个虚假账户

导读 Face book首席执行官马克·扎克伯格夫滕(Mark Zuckerbergoften)喜欢断言,人工智能已经大幅减少了数百万用户的滥用数量,他没有错——在其最新的社区标准执行报告中,Face book表

Face book首席执行官马克·扎克伯格夫滕(Mark Zuckerbergoften)喜欢断言,人工智能已经大幅减少了数百万用户的滥用数量,他没有错——在其最新的社区标准执行报告中,Face book表示,它在4月至9月期间删除了超过32亿个假账户,而去年同期仅超过15亿个。 而且,至少有一部分上升归因于一个称为深度实体分类(DEC)的机器学习框架,Face book在10月2019年规模会议上首次详细介绍了该框架。

DEC负责在平台部署后的两年内将滥用账户减少20%,这具体相当于“数亿”账户。 Face book软件工程师Sara Khodeir说,更简单的模型用于在注册时检测数百万个账户,但DEC在挑战案例中表现出色。

根据Khodeir的说法,它的创建是为了解决Face book在自动检测假账户的传统方法中遇到的问题。 从历史上看,一个团队会识别一组特征-比如一个帐户的年龄、朋友数量和位置-并将每个特征标记为“滥用”或“良性”数据,它们用来训练帐户分类器模型。 由于这些特征是由工程师手工编写的,所以特征空间相对较小,使得攻击者更容易发现。 最终,这些攻击者开始游戏特定的功能-例如,等到帐户成熟后才使用它们发布有害内容。

相反,DEC通过在社交图中聚合其他相关账户的行为特征属性来提取账户的“深层特征”。 它是递归的,导致每个帐户超过20,000个功能,而不仅仅是几十或数百个。 它使用了一种多阶段、多任务学习技术,使用大量低精度、自动生成的标签与少量高精度的人类提供的标签结合在一起,减少了培训前所需的注释工作。

DEC首先按实体类型考虑帐户的直接特性,如年龄和性别(用户实体)、风扇计数和类别(页面)、成员计数(组)、操作系统(设备)以及国家和声誉(IP地址),然后将帐户与其他实体进行交互,如页面、管理员、组成员、共享设备的用户、共享到的组和注册帐户。 在提取特征后,在将一阶和二阶扇出实体的结果聚合在一起之前,在数值上(例如,朋友组的平均数)和明确(例如,最常见类别的百分比)应用聚合。

这种方法使用三种不同的模型和Face book的大量生产数据进行了验证-这是一种行为模型,它只具有直接特征,一具有数万个特征的DEC模型,以及一个具有更大语料库的更复杂的DEC。 结果表明,虽然基本行为模型不能以95%以上的准确率预测假账户,但基于DEC的模型都超过了这一点,并识别了更多的假账户。

霍迪尔说:“在过去几年中,DEC一直在生产中,我们看到平台上[滥用]帐户的数量已经减少了一步。 “即使攻击者的数量增加,DEC的捕获量也基本相同。

DEC只是Face book在其平台上积极使用的一种自动技术,以对抗虚假账户和虐待行为。 另一个是一个语言不可知的人工智能模型,在30个方言家族中对93种语言进行了训练;它与其他分类器一起使用,一次解决多个语言问题。 在等式的视频方面,Face book说,它的突出采样器模型-它快速扫描视频并处理上传剪辑的“重要”部分-使它能够识别6500万个视频中超过10,000个不同的操作。

Face book正向一种名为自我监督学习的人工智能培训技术迈进,在这种技术中,未标记数据与少量标记数据一起使用,以提高学习精度。 在一个实验中,它的研究人员能够训练一个语言理解模型,该模型只有80个小时的数据,而人工标记的数据为12,000个小时。

在Face book今年早些时候举行的F8开发者大会上,Face bookA I Manohar Paluri的主管表示,类似AI的模型正被用来保护印度选举的完整性,印度是一个人们说22种不同语言,用13种不同脚本写作的国家。 他表示:“这种自我监督技术正在跨越多种模式、文本、语言、计算机视觉视频和语音。 “这是几个数量级的工作缩减。