Trustpilot是一个在线评论平台,面临着大多数公司目前都在处理的问题:如何构建AI以实现业务目标或从头开始解决问题。当然,这不是一个通用的答案;它完全取决于您需要解决的问题,如果您构建或解决方案,等等。
尺寸是另一个问题。像微软这样的巨头可以抢购语义机器并迅速大幅提升其智能助理功能 - 几乎就是富人越来越富有。但如果你不是科技巨头,那就更难了。Trustpilot绝不是一件小事,全球有七个办事处和700多名员工,但它也不是一家大型企业公司。虽然这是一笔5500万美元的融资,但它的资源却并非无限。与世界微软公司不同,它不是一家制造技术的公司。它使用技术提供服务,随着技术的发展以及不断变化的客户需求和业务需求,像Trustpilot这样的公司必须努力跟上。
将您的业务从缺乏AI的业务转变为依赖AI的业务的想法可能令人生畏。在完成这一旅程之后,Trustpilot的首席产品官Ramin Vatanparast对这个主题以及Trustpilot所做的事情有一些想法,他在2019年的转型中的演示和炉边聊天中分享了这些想法。
解决问题,不要爱上这项技术
很容易迷恋人工智能。这是目前最新的事情,它的潜力是闪亮的,巨大的,看似无限的。对于企业而言,这种吸引力可能伴随着一种唠叨的需求,即跟上这些行为。但Vatanparast表示,Trustpilot有意识地避免爱上任何特定技术,而是专注于公司希望实现的成果。
事实上,Trustpilot出于必要而非欲望来到AI。随着公司在过去12年中的发展,它必须处理的数据量也在增长。Vatanparast表示,Trustpilot每两秒就会进行一次在线评论,每月对这些评论的每月展示次数超过30亿次。他预计,到2020年底,Trustpilot将完成1亿次总评论。Trustpilot目前拥有560TB的数据。其中,55GB是非结构化或半非结构化数据;30TB被“清理,处理或标记”;17TB位于数据仓库中,可供客户使用以获得洞察力。
该公司的目标是创建最值得信赖的在线评论平台。解决其数据问题阻碍了该目标,Trustpilot确定能够处理该数据的唯一方法是使用AI。
在开始人工智能旅程时,Trustpilot试图避免陷阱。“大多数公司都在推出基于收入的解决方案。因此,他们希望在可能产生收入的地方应用人工智能,“Vatanparast说。但Trustpilot更多地关注使用人工智能来改进其核心产品 - 在线评论 - 并确保这些评论值得信赖。
文化和结构的转变
考虑到这一愿景,Trustpilot开始慢慢地,有意识地开始了AI的道路。“首先,我们在公司基础上创建了一个层,”Vatanparast说。首先是在公司内部创建一个“AI文化”,这需要教育员工。他们带来了一位数据科学家,与其他团队更紧密地合作,帮助他们在内部揭开神秘面纱的神秘色彩。鼓励个人和团队更多地了解人工智能,并在没有后果威胁的情况下尝试创意。“一开始就失败是可以的,因为我们正处于旅程的开始阶段,”他说。
最终,实验让位于更实际的考虑因素以及实际制作有用的东西的必要性。正如Vatanparast所指出的那样,如果您正在与之合作的AI并非旨在实现特定目标或解决公司正试图解决的问题,那么您将无法将其投入生产。但是资源是一个问题 - 尽管Vatanparast认为这是一个积极因素:“我们资源有限,有时候是好的。它可以帮助你更专注。“他补充说,”如果我们需要一把刀,我们试图避免[建造]激光切割机。“
进入杂草
对于Trustpilot,有两个关键领域需要人工智能处理:检测和删除虚假或垃圾评论,并从评论数据中提供更好的见解。
第一期的答案是Trustpilot欺诈引擎。Trustpilot已经有一个人工团队检查其对假货和垃圾邮件的评论,以及消费者和公司的众包审核。这导致每月有超过5,000个通知,但数量太大,公司无法扩展它。
因此,Trustpilot使用包括监督和无监督ML,预测分析,统计异常值检测,图形分析和神经网络在内的技术和技术构建了欺诈引擎。他们不得不创造“假分数”参数;如果给定的评论达到某个阈值,它将被自动删除,并且它将通知人类评论者该动作。现在,在Trustpilot的平台上,81%的虚假评论和垃圾邮件帖子都被AI捕获。
Trustpilot需要通过AI处理的第二件事是它的Review Insights。“问题在于,与Trustpilot合作的成功公司每月收到大约1,000-10,000条评论,”Vatnaparast解释道。他说,依靠消费者反馈的良性循环帮助他们改进产品的公司面临挑战。然而,面对成千上万的评论,他们一直在努力破译哪些是有用的,哪些是他们需要回复的,以及如何将这些发现用于改进他们的产品和服务。
换句话说,Trustpilot在其平台上有一个漏洞。数据存在且可用,但没有用。因此,该公司建立了一个情绪分类模型,可以检测评论中的正反馈。系统可以从评论中了解消费者对产品或服务的感受,然后企业可以进行更改并跟踪人们是否对这些变化做出积极响应。
根据Vatanparast的说法,情绪部分至关重要,因为即使在一个五星级评论中 - 仅仅由明星来看,似乎是一个完美的评论 - 也会出现一些负面情绪。基本上,“我对所有事情感到高兴,但是 - ”,他说。而来自忠诚或大多数满意的客户的反馈,比一星评价中收集到的更有启发性的“消极”反馈,客户只是心烦意乱,可能会引起轩然大波。
Trustpilot配备了情绪分类模型,已经分析了3500万条评论并发现了8500万条“情绪”。
然后是道德规范
你无法摆脱人工智能中的道德问题,即使在像Trustpilot的审查系统这样的地方,它似乎并不重要。回顾Trustpilot面临的一些道德挑战,Vatanparast说,“一个例子是关于如何建立模型以及模型的准确性。你如何对待数据并追求行为呢?“
AI可能会在Trustpilot的平台上标记1,000条评论作为虚假或垃圾邮件,但其中10条可能实际上值得信赖。是否更好地保持欺诈检测模型的严密性并接受1%的误报率才能删除那些990名违法者?或者你应该放松模型以避免任何误报,但然后让更多的假评论漏掉?Vatanparast没有明确说明Trustpilot在哪个特定问题上落后,但他确实说公司不断提出这些问题并进行相应调整。但这是一个平衡点。
这也提出了透明度问题。由于Trustpilot正在磨练其模型,它需要显示数学,因为它是。如果过程不断变化,无论多少,那么结果都会发生变化。为了与使用Trustpilot平台的公司和客户保持信任,这不能是一个完整的黑盒子。尽管如此,还是有一个平衡:分享多少信息太多了?
下一个挑战
使用您在企业中部署的AI,几乎有无限的改进空间。对于Trustpilot来说,下一个障碍与改进其语言模型有关。
在AI领域,人们对于需要清洁数据来训练模型进行了热烈的讨论。这是一个经典的垃圾,垃圾输出的情况。具有讽刺意味的是,Trustpilot需要一种适用于垃圾数据的语言模型。“你可以使用维基百科来生成一种语言模型,”他说,并指出这种模式大多具有正确的语法,用法和拼写。“但你无法将该模型应用于[Trustpilot]评论,因为评论不是干净的数据。它们没有结构化。他们肯定在很多情况下没有正确的拼写。“
他用“便宜”这个词作为例子。以不同的方式使用,“便宜”可能意味着“便宜”,这是一种积极的情绪。但它也可能意味着“质量差”,这是负面的。因此,脱离上下文,“廉价”一词对于创建任何类型的可靠情绪度量是无用的,或者至少是显着的问题。
英语充满了各种奇怪和怪癖,所以那里的任务非常重要,但是还有许多其他语言以同样的方式处理。Trustpilot以多种语言收集来自世界各地的用户的评论。“围绕英语创建模型肯定要容易得多,但当你看其他语言时,它变得更加困难,”Vatanparast说。
Trustpilot已经联系IBM Watson团队寻求北欧语言的帮助,希望交出其“杂乱”(和匿名)数据以改进Watson的语言模型,然后理想情况下Trustpilot可以使用更新的模型更加准确系统。这是一个表面上对双方都有利的过程,Trustpilot希望与其他组织重复这一过程,以不断改进现在已成为其业务核心的人工智能。