【Hadoop】集群资源管理器 YARN

Client 提交作业到 YARN 上
Resource Manager 选择一个 Node Manager，启动一个 Container 并运行 Application Master 实例
Application Master 根据实际需要向 Resource Manager 请求更多的 Container 资源（如果作业很小, 应用管理器会选择在其自己的 JVM 中运行任务）
Application Master 通过获取到的 Container 资源执行分布式计算

四、YARN工作 原理详述

1. MapReduce任务

以MapReduce任务为例说明yarn的工作原理

在这里插入图片描述

作业提交

client 调用 job.waitForComp letion 方法，向整个集群提交 MapReduce 作业 (第 1 步) 。新的作业 ID(应用 ID) 由资源管理器分配 (第 2 步)。作业的 client 核实作业的输出, 计算输入的 split, 将作业的资源 (包括 Jar 包，配置文件, split 信息) 拷贝给 HDFS(第 3 步)。最后, 通过调用资源管理器的 sub mitApplication() 来提交作业 (第 4 步)。
作业初始化

当资源管理器收到 sub mitApplciation() 的请求时, 就将该请求发给调度器 (scheduler), 调度器分配 container, 然后资源管理器在该 container 内启动应用管理器进程, 由节点管理器监控 (第 5 步)。

MapReduce 作业的应用管理器是一个主类为 MRAppMaster 的 Java 应用，其通过创造一些 book keeping 对象来监控作业的进度, 得到任务的进度和完成报告 (第 6 步)。然后其通过分布式文件系统得到由客户端计算好的输入 split(第 7 步)，然后为每个输入 split 创建一个 map 任务, 根据 map reduce.job.reduces 创建 reduce 任务对象。
任务分配

如果作业很小, 应用管理器会选择在其自己的 JVM 中运行任务。

如果不是小作业, 那么应用管理器向资源管理器请求 container 来运行所有的 map 和 reduce 任务 (第 8 步)。这些请求是通过心跳来传输的, 包括每个 map 任务的数据位置，比如存放输入 split 的主机名和机架 (rack)，调度器利用这些信息来调度任务，尽量将任务分配给存储数据的节点, 或者分配给和存放输入 split 的节点相同机架的节点。
任务运行

当一个任务由资源管理器的调度器分配给一个 container 后，应用管理器通过联系节点管理器来启动 container(第 9 步)。任务由一个主类为 YarnChild 的 Java 应用执行，在运行任务之前首先本地化任务需要的资源，比如作业配置，JAR 文件, 以及分布式缓存的所有文件 (第 10 步。最后, 运行 map 或 reduce 任务 (第 11 步)。

YarnChild 运行在一个专用的 JVM 中, 但是 YARN 不支持 JVM 重用。
进度和状态更新

YARN 中的任务将其进度和状态 (包括 counter) 返回给应用管理器, 客户端每秒 (通 mapreduce.client.progres smonitor.pollinterval 设置) 向应用管理器请求进度更新, 展示给用户。
作业完成

除了向应用管理器请求作业进度外, 客户端每 5 分钟都会通过调用 waitForCompletion() 来检查作业是否完成，时间间隔可以通过 mapreduce.client.completion.pollinterval 来设置。作业完成之后, 应用管理器和 container 会清理工作状态， OutputCommiter 的作业清理方法也会被调用。作业的信息会被作业历史服务器存储以备之后用户核查。

2. Flink任务

以Flink任务为例说明yarn的工作原理

在这里插入图片描述

当启动一个新的Flink YARN Client会话时，客户端首先会检查所请求的资源（容器和内存）是否可用，之后，它会上传Flink配置和JAR文件到HDFS。
客户端的下一步是向ResourceManager请求一个YARN容器启动ApplicationMaster。JobManager和ApplicationMaster(AM)运行在同一个容器中，一旦它们成功地启动了，AM就能够知道JobManager的地址，它会为TaskManager生成一个新的Flink 配置文件（这样它才能连上JobManager），该文件也同样会被上传到HDFS。另外，AM容器还提供了Flink的Web界面服务。Flink用来提供服务的端口是由用户和应用程序ID作为偏移配置的，这使得用户能够并行执行多个YARN会话。
之后，AM开始为Flink的TaskManager分配容器（Container），从HDFS下载JAR文件和修改过的配置文件，一旦这些步骤完成了，Flink就可以基于Yarn运行任务了。

五、YARN中的资源调度器

实际使用过程中，集群的资源是有限的，当集群资源被占到99%，但有一个紧急的任务需要立即执行时，我们只能杀死正在执行的任务，为新来的任务腾地方

为从源头解决这种问题，需要给yarn选择合适的资源调度器

yarn中一共支持三种资源调度器

FIFO schedular：先进先出调度器，所有任务被提交后都是需要排队的，当资源不够时，只能等前面的任务执行完毕释放了足够资源才能执行
Capacity schedular：容量调度器，FIFO的多队列版本，先把集群资源划分为队列，每个队列资源独立，每个队列中的任务还是以FIFO的方式执行
Fair schedular：公平调度器，支持多个队列，每个队列可以配置多个一定的资源，每个任务中的任务共享其所在队列的所有资源，假设往队列里提了一个任务，占用了整个资源，再提第二个任务时，第一个任务会释放一部分资源给第二个任务