首页 > 前沿科技 > > 正文
2021-09-18 09:11:59

利用大数据打造推荐引擎背后的艺术品

导读 我们生活在一个“长尾”世界。这意味着大众市场的产品已经不能满足需要定制解决方案的消费者。这种趋势是从网上零售开始出现的,尤其是杰夫

我们生活在一个“长尾”世界。这意味着大众市场的产品已经不能满足需要定制解决方案的消费者。这种趋势是从网上零售开始出现的,尤其是杰夫杰夫贝索斯提出的为100万不同的消费者开设100万家不同商店的想法。本质上,这一切都归结为建立一个完美的推荐引擎。创建这样一个工具的方法有很多,我们将在后面讨论,但它们都有一个共同点:大数据。

亨利福特和“只要是黑色,你想要什么颜色”的时代早就过去了。其他正在迅速过时的东西是网站过滤器和提问以缩小选择范围。现代客户希望一旦他们打开一个网站,他们就能得到他们梦想的东西。如果可能的话,在主滑块上。

这一趋势在家庭娱乐领域也很明显。想象一下,如果在找到你喜欢的电影之前,你必须整理成千上万部电影。不是最成功的商业模式吧?然而,像网飞这样的电影推荐引擎和其他类似的流媒体服务可以从你之前的选择中获得提示,并建议你接下来可能想看的内容。

有三种方法可以构建一个伟大的推荐引擎,每个引擎都有不同的方法来解决同一个问题。

为了理解集群推荐引擎是如何工作的,您应该考虑包装或货架上的产品布局。集群考虑其功能并推荐补充项目。例如,如果您在购物车中添加了牙刷,集群引擎将向您显示牙膏。

这些引擎不考虑客户的具体喜好,也不考虑其他用户买什么,所以即使没有大数据的帮助,也可以构建这样的引擎,除了简单的开箱即用的工具,还可以使用逻辑和常识。以这种方式构建推荐引擎的唯一问题是,如果您有数百或数千个产品,它几乎是不可管理的。

这几千种产品中,聚类会太费力,所以算法应该很方便。大数据可以通过自动建立必要的关联来提供帮助。

获得主动推荐引擎的下一个方法是以客户已经喜欢的方式开始。回到网飞,如果他们已经看过《魔戒》的两部主要电影,他们最有可能对第三人称感兴趣。

在这里,大数据更有用,因为算法收集了大量的数据点,并计算它们之间的相关性。比如看电影类型、演员、导演、配乐甚至拍摄地点。接下来,它会扫描数据库中与找到的信息相似的项目。这种类型的推荐引擎考虑客户和服务之间交互的个人历史,并提出真实的上下文建议。

如果你刚刚安装了网飞或者第一次出现在亚马逊上呢?您的推荐源不是空的。事实上,你可能从一开始就看到了一些好的想法。这些是根据现有用户的偏好提供的。

在你开始使用平台,算法对你了解更多之后,建议会变得更好,因为你会被自动分配到客户相似的集群。

协作引擎的优势在于可以根据客户的现实生活偏好进行预测。缺点是类似的用户如果喜欢过去类似的东西,以后还会继续这样做,有些不现实。

在选择上面讨论的任何方法之前,您需要数据来输入算法。因为任何大数据工作都是“垃圾中的垃圾”问题,所以您还需要确保您拥有的数据是高质量和真实的。

第一步是收集正确的数据。这里的挑战是,最有用的信息是隐含的,来自用户的行为。虽然在线日志中收集数据很简单,但过滤正确的信息几乎是一门艺术。这里的困难在于对每个项目给予适当的关注。比如在电影推荐引擎的情况下,类型还是主角更重要?根据受众的不同,答案可能会有很大差异。

接下来,您需要确保数据以允许您快速访问数据的方式存储,并且算法可以从数据中不断学习。NOSQL数据库为这些项目提供了必要的灵活性和可扩展性,这些项目通常会呈指数级增长。通过在云中的数百个分布式服务器上传播数据,这样的存储方法是可能的。

NoSQL数据库的优势在于,它提供了存储任何数据的机会,包括非结构化数据,如评论、意见和观点。很多时候,这些比数字评分更有价值,因为你可以了解更多更微妙的偏好。

要创建一个优秀的推荐引擎,最关键的一步是分析数据和识别模式。一些性能最好的系统实时或几乎实时工作,并且每隔几秒钟刷新一次。性能最差但仍然可用的解决方案是批量分析,主要用于零售,以检查每日或每周的销售额。

我们可以预期,推荐引擎将变得如此高性能,以至于它们将完全消除对搜索的需求。这种方法的危险和缺点是,每个顾客都会生活在舒适的泡沫中,享受同样的内容,除此之外几乎没有机会发现其他东西。我们在社交媒体上看到了这种现象——这对我们个人和集体来说都非常危险——我们也在YouTube上自动生成的播放列表中看到了自己的泡沫。

索菲亚布鲁克(Sophia Brooke)是一名拥有10多年经验的项目经理,在零售、软件、建筑、教育和金融服务等行业的项目管理和交付方面都取得了良好的记录。