大数据 – Spark系列《四》- Spark分布式运行原理

创建一个RDD 到底有几个分区(并行)？

1. 加载文件源头RDD

当通过加载文件等方式创建RDD时，RDD的初始分区数由Spark根据输入数据的大小和集群配置自动确定。通常情况下，如果没有特别指定，Spark会尽可能地将数据分成多个分区，以提高并行度和性能。对于文件加载的源头RDD，默认情况下至少会有2个分区。

2. 调用算子返回的RDD

当对一个RDD调用转换算子（transformation）时，返回的新RDD的分区数通常与父RDD的分区数保持一致。

2）🧀分区数据处理

在Spark分布式运行中，各个分区处理属于自己的数据任务。每个任务会被分配到不同的节点上执行，并且各个分区的计算逻辑是一致的，这样就可以保证在不同节点上的并行计算结果是一致的。

3）🧀统一的数据处理逻辑

在处理数据的过程中，Spark提供了丰富的方法和算子来对RDD进行各种操作，例如map、flatMap、reduce等。这些操作符能够灵活地应用于各个分区的数据上，并且具有统一的数据处理逻辑，从而保证了整个作业的一致性。

4） 🧀统一的结果类型

最终，在分布式运行完成后，各个分区处理的结果会被合并成一个统一的RDD。这样就保证了返回的结果类型是一致的，可以进一步进行后续的操作和分析。

🍠延申：关于Spark默认并行度spark.default.parallelism的理解

spark.default.parallelism是指RDD任务的默认并行度，即RDD中的分区数。它对Spark作业的并行执行有着重要影响。

1. 🧀设置方式：可以通过Spark配置项进行设置

val conf = new SparkConf()
  .set("spark.default.parallelism", "500")

2. 🧀影响因素

父RDD分区数：当初始RDD没有设置分区数（numPartition或numSlice）时，默认并行度取决于spark.default.parallelism的值。
分布式shuffle操作：在使用reduceByKey、join等分布式shuffle算子操作时，reduce端的stage默认取spark.default.parallelism配置项的值作为分区数。
没有shuffle的算子：对于没有shuffle的算子，在创建RDD又没有设置分区数时，默认并行度依赖Spark运行的模式：
- 本地模式：默认并行度取决于本地机器的核数。
  
    –local: 没有指定CPU核数，则所有计算都运行在一个线程当中，没有任何并行计算
  
    –local[K]:指定使用K个Core来运行计算，比如local[2]就是运行2个Core来执行
  
    –local[*]: 自动帮你按照CPU的核数来设置线程数。比如CPU有32个逻辑处理器，Spark帮你自动设置32个线程计算。
- 集群模式：默认并行度为8。