LinkedIn Corp.周四向开源社区捐赠了另一种内部构建的工具:一种转换工具,可将来自Apache Spark的数据转换为TensorFlow可以方便地用于机器学习目的的格式。
TensorFlow是运行机器学习,深度学习以及其他统计和预测分析工作负载的最流行且使用最广泛的框架之一。Apache Spark是一个开源的大数据处理引擎,旨在执行需要快速,持续访问数据集的流,机器学习或SQL工作负载。
LinkedIn的新工具,称为Avro2TF,使数据科学家和其他用户存储在常用的LinkedIn的工程师为可以由TensorFlow很容易消耗的模式在Apache Avro的格式转换的数据集。好处是一个简单但有用的好处:它使工程师和开发人员可以腾出精力专注于他们的机器学习模型。
Avro2TF只是LinkedIn向捐赠社区捐赠的一系列基于机器学习的工具中的最新工具,这符合其“民主化机器学习”的使命。
LinkedIn工程师张旭宏,张晨亚和马一鸣在博客中写道:“我们从这次旅程中学到的重要课程之一是提供良好的深度学习平台,以帮助我们的建模工程师提高效率和生产力的重要性。” “ Avro2TF是降低数据处理复杂性并提高高级建模速度的一项工作。”
LinkedIn的工程师解释说,他们构建Avro2TF是为了满足他们对专注于“可扩展数据转换”的解决方案的需求。据说该工具支持所有Spark可读数据格式,包括优化的行列,稀疏矢量和密集矢量数据。
LinkedIn表示,它相信许多组织将能够从Avro2TF中受益,因为微软公司不是唯一一个为将数据转换为机器学习目的而奋斗的公司。
工程师说:“我们认为,这不仅是LinkedIn问题,而且许多公司拥有相似稀疏矢量格式的大量ML数据,而且Tensor格式对许多公司而言仍相对较新。” “ Avro2TF通过提供可扩展的基于Spark的转换和扩展机制来弥合这种差距,以有效地将数据转换为TensorFlow可以轻松使用的TF记录。”
Constellation Research Inc.的分析师Holger Mueller告诉SiliconANGLE,应该有许多渴望使用Avro2TF的组织,因为它提供了两种流行的开源技术之间的重要纽带。
Mueller说:“这些'桥梁'开源项目对于企业构建下一代应用程序至关重要,因为它们没有LinkedIn所需的资源来构建它们。”
LinkedIn表示,可以在GitHub上下载Avro2TF,以及有关如何启动和运行它的教程。