大数据公司Databricks Inc.希望通过一个新的开源项目来清理公司混乱的数据湖。
Databricks说,该项目称为Delta Lake,其作用与常规数据湖类似,但通过确保其中存储的所有信息“干净”且没有错误,提供了更高的可靠性。
数据湖是以其自然格式存储的数据的系统或存储库,通常是对象“斑点”或文件。它们通常充当所有企业数据的单个存储,包括源系统数据的原始副本和用于报告,可视化,分析和机器学习等任务的转换数据。
但是Databricks表示,出于以下几个原因,存储在传统数据湖中的信息可能不可靠或不准确。这些包括写入失败,架构不匹配和数据不一致,当批处理数据和流数据混合在一起时会出现这种情况。
Databricks首席执行官Ali Ghodsi告诉SiliconANGLE,“在过去十年中,组织一直在建设数据湖,但是一直未能从数据中获得洞察力。“因为这是垃圾-垃圾,组织会遇到数据质量,可伸缩性和性能方面的问题。”
该公司表示,这些不可靠的数据可能会阻止公司及时获取业务见解,并且会减慢诸如机器学习模型训练之类的计划,而这些计划需要准确且一致的数据。
Ghodsi补充说:“ Delta Lake通过“过滤”凌乱的数据并阻止对Delta Lake的访问来应对这些挑战。“干净的数据位于数据湖顶部的三角洲湖中。在当今的数据湖中无法提供这种级别的数据可靠性。”
Delta Lake确保数据保持准确性和可靠性,因为它可以管理批量和流数据以及多个同时写入的事务。使用Apache Spark分析数据的公司可以利用Delta Lakes作为其主要信息源,因此无需更改其数据体系结构。另外,Delta Lakes消除了建立复杂的数据管道的需求,这些管道在不同的计算系统之间移动信息。公司的所有信息都可以存储在Delta Lake中,必要时可以利用数百个应用程序。
Delta Lakes也使个人开发商的生活更加轻松。通过设置Delta Lake,开发人员可以从笔记本电脑访问它,并快速建立到他们正在使用的任何应用程序的数据管道。他们还可以访问每个Delta Lake的早期版本,以进行审核,回滚或重现其机器学习实验的结果。此外,开发人员可以将其用于存储大型数据集的常用格式Parquets转换为Delta Lake,从而避免了将大量新数据写入系统的需求。
Ghodsi说:“希望将原始的,不可靠的数据转换为可立即使用的,可靠的数据以进行机器学习计划的开发人员应该使用Delta Lake。” “ Delta Lake将简化数据工程并消除开发人员每天遇到的可靠性问题。”
SiliconANGLE姐妹市场研究公司Wikibon的分析师James Kobielus说,Delta Lake实际上听起来与数据仓库没有区别,他将数据仓库定义为“真相的单一版本”,该数据被净化后的数据存储,供下游应用程序用于运营商业智能,报告,预测建模和其他工作负载。
Kobielus说:“换句话说,听起来确实像是Databricks正在扩大其市场定位,以解决更广泛的传统企业用例,例如数据仓库。” “但是,Delta Lakes提出了一个明显的问题:除了能够使用Spark分析仓库中的数据之外,Apache Hive可能是最广泛采用的开源数据仓库项目中尚不支持的功能?”