Spark如何用累加器Accumulator收集日志

本文介绍: Spark任务的实际运算是交由众多executor来执行的，如果再执行算子内部打印日志，是需要到对应的executor上才能看到。当不知道对应executor的情况下就需要挨个查询日志，是否不方便。是否有办法可以收集所有executor上的日志内容打印在driver上呢？这样就可以直接在stdout里看到所有日志。

Spark任务的实际运算是交由众多executor来执行的，如果再执行算子内部打印日志，是需要到对应的executor上才能看到。当不知道对应executor的情况下就需要挨个查询日志，是否不方便。是否有办法可以收集所有executor上的日志内容打印在driver上呢？这样就可以直接在stdout里看到所有日志。

spark累加器Accumulator是spark提共的两种共享变量（广播变理和累加器）的一种。为什么要使用共享变量呢？通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传，也就是说有结果Driver程序是拿不到的！共享变量就是为了解决这个问题。本博文介绍其中的一种累加器Accumulator。

累加器只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task（excutor）只能对其做增加操作（使用 +=）。

val accumTool: AccumulatorTool = new AccumulatorTool()
SparkSession.sparkContext.register(accumTool)

val info = "日志内容"
accumTool.add(info)

//打印错误日志
println(s"execute error num is  ${accumTool.value.size}, accumTool message:")
var logNum = 1
for ((k,v) <- accumTool.value if logNum <= 10) {	
	println(k + "," + v)
   	logNum += 1
   	}