Bootstrap

spark学习-50-Spark的stage的划分

在这里插入图片描述

1.概述

在 RDD 中将依赖分成了两种类型:窄依赖和宽依赖,窄依赖是指父 RDD 的每个分区都只被父RDD一个分区使用。相应的,那么宽依赖就是指父RDD 的分区被多个子RDD的分区所依赖

stage的划分主要依据窄依赖和宽依赖

窄依赖:

指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区,和两个父RDD的分区对应于一个子RDD 的分区。图中,map/filter和union属于第一类,对输入进行协同划分(co-partitioned)的join属于第二类。

宽依赖:

指子RDD的分区依赖于父RDD的所有分区,这是因为shuffle类操作,如图中的groupByKey和未经协同划分的join。

这里写图片描述

;