流计算是用于越来越多的数据丰富,低延迟应用程序的关键平台。
越来越多的在线应用程序,例如移动性,“物联网”,媒体,游戏和无服务器,都需要强大的,低延迟的数据处理主干。现在,许多流媒体应用程序的核心功能包括实时事件处理,连续计算,状态语义,发布和订阅消息传递,更改的数据捕获和ACID交易功能。
流计算快速增长
在未来十年中,静态数据架构(例如数据仓库,数据湖和事务性数据存储)将不再是企业数据战略的中心。在 一年前Wikibon的大数据分析市场更新中,我们发现了一些趋势,这些趋势指向一个新时代,在该时代,流计算是大多数数据体系结构的基础:
流计算是许多新边缘应用程序的基础,包括移动,嵌入式和“物联网”设备的访问,后端基础结构提供了实时设备管理和流内分析处理。
企业正在扩大对内存,连续计算,更改数据捕获和其他低延迟解决方案的投资,同时将这些投资与大数据静态环境(包括Hadoop,NoSQL和RDBMS)融合在一起。
流环境不断发展,以支持低延迟,应用程序级别的实时数据的任意数量,种类,频率,格式,有效载荷,顺序或模式的处理。
正在部署流计算主干来管理更多有状态的事务性工作负载,执行流内机器学习并处理其他复杂的编排方案,这些方案迄今为止一直是关系数据库和其他静态存储库的一部分。
在线事务分析处理,数据转换,数据治理和机器学习正日益朝着低延迟,有状态的流式骨干网发展。
供应商正在引入包含流媒体平台的创新解决方案,以确保它们可以作为各种应用程序的持久性真理来源。
云提供商已将流技术集成到其解决方案组合的核心中,以实现移动性,物联网,无服务器计算和其他关键解决方案模式。
企业正在将更多的推理,培训和其他工作负载迁移到处理本地获取的传感器数据的实时流的边缘设备。
开源流环境正在成为重要的企业大数据平台。
面向批处理的大数据部署正在让位于更完全的实时,流式传输,低延迟端到端环境。
大多数机器学习,深度学习和其他人工智能工作负载将实时进行流处理。
Apache Flink保持其在流计算领域的势头
在过去的几年中,流计算市场已经看到大量开源项目投入使用。现在,其中许多都由Apache Software Foundation管理。除了市场上许多成熟的商业流计算和复杂事件处理解决方案外,企业还可以从以下选择中选择:Apache Kafka,Flink,Spark Streaming,Apex,Heron,Samza,Storm,Pulsar 和Beam。
尽管这些流计算项目之间的功能重叠相当多,但Wikibon看到越来越多的企业实现使用其中的两个或多个来利用它们的优势。除了Kafka之外,Apache Flink是最受欢迎的流计算开源项目。
自发明以来的第10年和成为Apache项目以来的第5年,Flink的强项就是其结构的多功能性。Apache Flink每秒可以摄取数百万个数据点,并同时跟踪相关的上下文信息。它最杰出的用户包括Netflix Inc.,Uber Technologies Inc.,Lyft Inc.和阿里巴巴集团控股有限公司。
尽管Flink缺乏Kafka核心的发布和订阅功能,但Flink为绝大多数流计算用例提供了强大的框架和可扩展的分布式引擎。实际上,在许多企业流计算应用程序中以互补的方式部署Kafka和Flink并不少见。
就目前而言,Apache Flink开源代码库(当前在最新的稳定版本1.7.2中可用)的核心功能是:
支持有状态的,事件驱动的,高吞吐量的连续处理应用程序;
以内存速度执行事件驱动的计算;
可以任意规模运作;
在所有常见的集群环境中运行,包括Kubernetes,Docker,Mesos和YARN;
处理无限流和无限流;
支持批量和连续延迟;
确保在多个节点上的分片表之间保持非常大的分布式状态的一次精确一致性。
提供增量检查点;
执行复杂的实时数据处理;
支持SQL查询低延迟应用程序;
通过连接器连接到各种本地企业数据库和计算平台以及阿里巴巴和其他公共云,支持混合云分布式部署;
允许开发人员构建有状态的流应用程序以部署到Flink集群;
每秒可处理数百万个事件,并在后端RocksDB实现中节省多达TB的实时状态;
支持实时数据流的指标,日志记录和可操作性;
启用实时流Flink应用程序的分支和使用历史数据的流重放,以确保强大的数据一致性;
允许开发人员拍摄正在运行的应用程序的快照,从这些快照中启动新代码;
与Jenkins等第三方DevOps工具集成;和
使用包含DataStream和DataSet API的通用开发抽象。
本周在旧金山举行的第三届年度Flink Forward开发人员大会上,与会人员了解到Apache Flink项目以及使用它的社区现在可能会表现得很好,因为其主要开发人员Data Artisans GmbH(最近更名为Ververica) 已被中国收购的云计算巨头阿里巴巴。
在大会主题演讲中,Ververica和阿里巴巴的高管们阐述了该公司未来十年的重点。最值得一提的是Wikibon对流媒体市场的预测,尤其是其与批处理和机器学习的融合,的准确度。
不断发展的Apache Flink开源社区
Apache Flink势不可挡,对于越来越多的流使用案例而言,它已变得不可或缺。Flink Forward 2019上展示的采用率,开源代码承诺率和其他指标表明,它已成为企业数据策略的关键支柱。
Ververica工程主管罗伯特·梅茨格(Robert Metzger)的统计数据表明Flink在全球范围内(尤其是在中国)的采用率不断增长。因此,考虑到Ververica的新公司血统,当Metzger讨论Ververica如何为Apache Flink社区启动新的中文用户支持邮件列表时,这并不奇怪。他还讨论了公司为将中国大量Flink用户群整合到开源项目的Apache社区中所做的努力。
为了支持这些社区成员和其他社区成员,Metzger讨论了Ververica在改善Flink网站方面的投资。正在进行的主要增强功能包括提高管理问题和错误跟踪,发布社区软件包以及处理工作流以进行请求请求审核和标记的能力。
为Apache Flink开源代码库贡献创新
Ververica计划继续将Apache Flink从流处理器演变为统一的数据处理系统。最终,它专注于开发Flink的批处理,机器学习和流分析以及数据仓库/ ETL集成功能。
在批处理中,阿里巴巴高级平台工程师姜晓伟与Ververica团队讨论了其在开源平台上建立“ Blink ”批处理功能的工作。为此,计划在Flink代码库中添加的内容将包括新的Table API和增强的SQL查询处理器。根据Ververica CTO Stephan Ewen的说法,它正在与阿里巴巴合作,以改善跨分布式节点运行的批处理作业的性能和容错能力。
在机器学习中,Ververica首席执行官Kostas Tzoumas讨论了该公司在加深Apache Flink的算法库,实用程序和用户界面方面的投资,以服务于正在构建人工智能和流分析应用程序以进行实时连续计算的数据科学家团队。他们还增加了对在Zeppelin笔记本电脑中开发Flink机器学习应用程序的支持。
根据Tzoumas的说法,在数据仓库和ETL集成中,Flink与Hive的metastore和数据目录更加紧密地集成在一起。它还在其嵌入式SQL查询处理引擎中看到了性能增强。
此外,当天的各种突破都集中在正在进行的Apache Flink增强上,这些增强将加强与TensorFlow,Apache Beam和Apache Pulsar的集成。
总体而言,这些体系结构的改进将使开源Apache Flink能够支持更多的企业用例,这些用例历来都是静态数据平台,例如Apache Hadoop。
开发Apache Flink商业生态系统
去年,数据工匠 针对企业推出了Flink的商业版本。该平台包括用于自动执行大型部署的设置和维护的功能。它还提供对ACID的支持 ,该方法可以保证重要信息(例如财务记录)的可靠性。
为了维持Flink生态系统的商业发展势头,Ververica保留了Artisan所有数据产品并重新命名。新近更名为Ververica平台,以前称为dA平台,作为许可软件提供,包括三个核心组件:
Apache Flink(用于分布式,有状态,实时流内计算的开源引擎);
Ververica Application Manager(用于在Flink上进行实时有状态计算生产应用程序的生命周期管理的框架);和
Ververica Streaming Ledger(Flink之上的库,用于在共享的分布式状态表之间进行可序列化的ACID事务)。
根据Tzoumas的说法,Ververica正在扩大其Flink培训和咨询计划。他们还正在招募新的平台和服务合作伙伴,以将公司的解决方案带入全球更多的机会。
Ververica的上市策略缺少什么?
如果希望扩大Flink在企业中的采用,Ververica将需要采取以下战略步骤:
在企业中不断增长的混合流环境范围内,尤其是在Kafka和Spark Streaming方面,更简洁地定位Apache Flink的差异化用例。
将更多焦点放在Ververica产品开发上,以便在移动,嵌入式和IoT设备中获得Flink的进一步立足点;
将数据科学工具链和DevOps供应商带入Ververica的合作伙伴生态系统,以确保构建和培训更多的机器学习应用程序,以便在分布式Flink环境中进行部署;
在Ververica的进入市场战略中重点关注业务线和垂直行业,以便通过结合嵌入式Flink流道的快速价值流解决方案来吸引更多企业客户;
建立Ververica的公共云集成,以确保Flink可以作为更多企业混合云部署中首选的流计算平台并入。
将Ververica平台的容器化功能公开为无服务器功能,并将其引擎作为Knative的后端插入,以便可以更轻松地将Flink集成到云原生应用程序中
有关Flink Forward 2019的更多新闻,请查看Ververica博客。要了解该公司过去一年的发展情况,请查看Tzoumas在Flink Forward 2018上在CUBE上所说的话。