大数据公司Databricks Inc.希望授权所谓的公民数据科学家在其Unified Analytics(分析)平台中通过新的“自动机器学习”功能创建自己的机器学习模型。
今天宣布的AutoML功能也依赖于机器学习,旨在帮助未经训练的工人弄清创建和训练机器学习模型所涉及的关键步骤。机器学习模型是用于进行预测的现实过程的数学表示,并通过提供训练数据供算法学习而创建。
但是,创建机器学习模型并非易事。通常,这是由训练有素的数据科学家完成的,需要对准备使用的训练数据进行大量准备。其他要求包括功能工程,超参数调整,自动模型跟踪,可再现性和部署。这些是Databricks表示现在可以使用其新功能实现自动化的过程。
Databricks产品管理副总裁Adam Conway表示:“通过引入“低代码”和“无代码”的概念,AutoML代表了组织采用机器学习和数据科学方式的根本转变。“通过正确的自动化,AutoML可以大大缩短数据科学团队的价值实现时间。”
Wikibon分析师James Kobielus告诉SiliconANGLE,他欢迎Databrick的新AutoML工具,因为自动化正迅速成为希望在DevOps中实现机器学习的企业的标准方法。
Kobielus说:“世界上根本没有足够的专家,经验丰富和训练有素的数据科学家以现代机器学习操作所需的速度和规模手动完成所有这些工作。” “这些最新的AutoML公告解决了增强编程工具在市场上的一个甜头,可以帮助下一代公民数据科学家实现ML模型的更多开发,训练和调整自动化。”
Kobielus补充说,他对Databricks的用于模型超参数调整的复杂工具印象特别深刻,他说这可以使持续表现良好的ML模型与遭受实际部署中的快速衰减的模型之间的所有差异。
他说:“我们希望Databricks紧跟这些公告,大力推动对AutoML新技术领域的业务分析师和主题专家的教育。”
新功能已与Databricks的MLflow产品集成在一起,该产品是去年宣布的开源框架,用于打包机器学习代码,执行和测试它,然后将其部署到跨多个云平台的生产环境中。
MLflow本身利用了开源大数据处理框架Apache Spark的强大功能,Apache Spark是Databricks统一分析平台的关键组件,可用于分析数据,在孤立的存储系统上建立数据管道以及为模型构建准备标记数据集。