目录

短分享-Flink图构建

短分享-Flink图构建

一、背景

通过简单的书写map、union、keyby等代码,Flink便能构建起一个庞大的分布式计算任务,Flink如何实现的这个酷炫功能呢?我们本次分享Flink做的第一步,将代码解析构建成图

源码基于Flink 2.10,书籍参考《Flink核心技术源码剖析与特性开发》第四章

我这次会用一个简单的代码来举例图的构建过程

二、例子代码

https://i-blog.csdnimg.cn/direct/4e019eb000204baba868dde803130f4e.png

以上代码转换关系如下图:

https://i-blog.csdnimg.cn/direct/289d85e6e9184c2085fc8ad755347a98.jpeg

三、代码转StreamGraph

3.1 路由关系的搭建

Flink中每一次转换(如map)用Transformation表示,每次转换都会有一条类似的边被保存(Transformation1-> Transformation2) ,而所有的关联关系存储在Environment的transformations中

3.2 路由关系转StreamGraph

有了所有的边,就可以将边构成图了,图主要通过递归关系构建,不同Transformation有不同处理策略,对于map会把该结点和它之前的结点构成边,对于union会把它的前后结点连接起来,对于keyby会变成边的策略

转换之后图如下所示,可以看到union和keyby都消失了

https://i-blog.csdnimg.cn/direct/da1692feb3a14f8ebdf868315943d82e.jpeg

我们debug中间过程,可以看到确实是7个结点

https://i-blog.csdnimg.cn/direct/06c7a67be50140738ef3d6157ee2ba45.png

且keyby变成了边的策略

https://i-blog.csdnimg.cn/direct/dbe4c93f15c14882a401def765f1d0c0.png

四、StreamGraph转JobGraph

在这一步会做很做很多重要操作,比如结点链接,配置检查点,设置分布式缓存文件等,我们本次主要聚焦于结点的链接,满足如下条件的会被链接

https://i-blog.csdnimg.cn/direct/cbce1859fe9d409d85242933e414b80c.jpeg

StreamGraph转JobGraph同样通过递归进行,链接完后的图如下图所示,map1和map2被链接,map4和slink被链接:

https://i-blog.csdnimg.cn/direct/f43ea3053d724ee68f64dc6a9ab3c425.jpeg

可以debug中间过程,可以看到确实是只剩了5个结点:

https://i-blog.csdnimg.cn/direct/47c9229edab4491194867d720f1d9fdf.png

如果我们再加上实际的对象,实际如下图所示,每个结点是一个JobVertex,IntermediateDataSet 对象就是数据写入的地方,JobEdge是连接关系

其中ID是IntermediateDataSet,为后面数据分区做准备

JE是JobEdge

https://i-blog.csdnimg.cn/direct/b0615c58f35b4f6d8d1323f3f1b2d56d.jpeg

五、JobGraph转ExecutionGraph

JobGraph创建好之后,会被提交到JobManager,在JobManager中会根据JobGraph图做拓扑排序,然后完成JobGraph到ExecutionGraph的转化,其中:

JobVertex一比一转换ExecutionJobVertex,ExecutionJobVertex会根据并发度拆分成ExecutionVertex,比如map1->Map2,就会变成两个ExecutionVertex

IntermediateDataSet会转成IntermediateResult,并根据生产结点个数,拆成不同的数据分区IntermediateResultPartition,比如map1->Map2,就会变成两个ExecutionVertex,同时有两个IntermediateResultPartition

转换之后的图为如下所示,其中:

IRP=IntermediateResultPartition 表示一个数据分区,数据分区满了之后会Flink会根据边ExecutionEdge的关联关系,提醒下游获取数据,进行计算

EE=ExecutionEdge表示一条边

EJV=ExecutionJobVertex 表示一个Task任务,由JobVertex一比一转换

EV=ExecutionVertex,由ExecutionJobVertex根据并发度拆出来的

https://i-blog.csdnimg.cn/direct/dc46c373e0f742d58caa25a2e78a52dd.jpeg

根据debug断点也可以看到确实有五个ExecutionJobVertex,其中map1->map2结点有两个ExecutionVertex,每个ExecutionVertex有一个IntermediateResultPartition

https://i-blog.csdnimg.cn/direct/8f056925c13e4ffa8fb546a4fffa9861.png

六、后续

Execution是ExecutionVertex的执行抽象,Flink构成图之后,会将Execution结点分发到各个TaskManager进行执行,可以看下面本地debug图,各个Execution刚刚处于创建状态等待执行,具体后续执行流程各位感兴趣可以再继续探究

https://i-blog.csdnimg.cn/direct/b76bcc6f4e2c44b187cf8cf1a259dfa0.png