Bootstrap

Spark参数设置总结

Spark参数总结

1、num-executors参数
该参数设置Spark作业总共需要多少个Executor进程来执行。Driver向YARN申请资源时,YARN管理器会按照你设置的,在各个WorkNode上启动相应的Executor进程

注释:Executor为JVM进程,用于运行和处理Task(分区数据)

2、executor-memory参数
该参数用于设置每个Executor进程的内存。

3、executor-cores
该参数用于Executor进程的CPU core数量,决定了Executor并行执行Task行程能力。每个CPU core同时只能执行一个Task行程,越多性能越好。

4、driver-memory
该参数用于设置Driver进程内存。

Driver:我这里个人理解为 spark 程序入口,负责对spark中SparkContext(sc)对象进行创建

5、spark.default.parallelism
该参数用于设置每个stage的默认task数量
如果不设置这个参数, Spark自己根据底层HDFS的block数量来设置task的数量,默认是一个HDFS block对应一个task

6、spark.storage.memoryFraction
该参数用于设置RDD持久化数据在Executor内存中能占的比例,默认是0.6。默认占用Executor 60%内存,可以保存持久化的RDD数据。

7、spark

;