Hadoop进阶学习—Yarn资源调度架构

本文介绍: hadoop 架构之Yar n 资源调度框架,学习三种调度器以及学习其执行原理、理解并融会贯通

1.Yar n执行MR流程

在这里插入图片描述
1.客户端提交一个MR程序给Re sourceMana g e r(校验请求是否合法…)

2.如果请求合法,Re sourceMana g e r 随机选择一个No deMana g e r 用于生成 appmaster(应用程序控制者,每个应用程序都单独有一个appmaster)
3.appmaster会主动向Res our ceMana g e r的应用管理器(application manager)注册自己,告知自己的状态信息,并且保持心跳
4.appmaster会根据任务情况计算自己所需要的container 资源(cpu,内存…),主动向Res our ceMana g e r的资源调度器(resource scheduler)申请并获取这些container 资源

5.app master 获取到container 资源后,把对应指令和container 分发给其他No deManager,让No deManager 启动 task 任务(map task 任务,reduce task任务)
6.No deManager要和app master保持心跳,把自己任务计算进度和状态信息等同步给app m aster,(注意当map task任务完成后会通知 app m a ster,ap pm a ster接到消息后会通知 reduce task去map task那儿拉取数据)直到最后任务完成

7.ap pm a ster会主动向Res ourceMa n ager注销自己(告知Res ourceManager可以把自己的资源进行回收了,回收后自己就销毁了)

2.调度器

调度器的配置在yarn–site.xml 查找,如果没有就去yarn–default.xml中找
网址: https://hadoop.apache.org/docs/stable/hadoop–yarn/hadoop–yarn–common/yarn–default.xml
配置项和默认值如下 yarn.resourcemanager.scheduler.class=org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySch eduler

2.1 先进先出调度器 FIFO Sch eduler

在这里插入图片描述

FIFO Scheduler: 把应用按提交的顺序排成一个队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推。
好处: 能够保证每一个任务都能拿到充足的资源, 对于大任务的运行非常有好处
弊端: 如果先有大任务后有小任务,会导致后续小任务无资源可用, 长期处于等待状态
应用: 测试环境

2.2 公平调度器 Fair Sched uler

在这里插入图片描述

Fair Scheduler :不需要保留集群的资源，因为它会动态在所有正在运行的作业之间平衡资源 , 当一个大job 提交时，只有这一个job在运行，此时它获得了所有集群资源；当后面有小任务提交后，Fair调度器会分配一半资源给这个小任务，让这两个任务公平的共享集群资源。
好处: 保证每个任务都有资源可用, 不会有大量的任务等待在资源分配上
弊端: 如果大任务非常的多, 就会导致每个任务获取资源都非常的有限, 也会导致执行时间会拉长
应用: CDH商业版本的hadoop

2.3 容量调度器 Capacity Sc heduler

在这里插入图片描述

Capacity Sc heduler: 为每个组织分配专门的队列和一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。在每个队列内部，资源的调度是采用的是先进先出(FIFO)策略。
好处: 可以保证多个任务都可以使用一定的资源, 提升资源的利用率
弊端: 如果遇到非常的大的任务, 此任务不管运行在那个队列中, 都无法使用到集群中所有的资源, 导致大任务执行效率比较低,当任务比较繁忙的时候, 依然会出现等待状态
应用: apache 开源版本的hadoop

示例

调度器的使用是通过yarn–site.xml配置文件中的
y arn.resourcemanager.scheduler.class参数进行配置的，默认采用Capac i t y Sc heduler调度器
下面是一个简单的Capac i t y调度器的配置文件，文件名为capacity–scheduler.xml。

在这个配置中，在root 队列下面定义了两个子队列 prod和dev，分别占40%和60%的容量

&lt;property&gt;
   &lt;!-- 队列分为两份 prod 和 dev    -->
   <name>yarn.scheduler.capacity.root.queues</name>
   <value>prod,dev</value>
</property>
  <property>
   <!--prod占比 40%-->
   <name>yarn.scheduler.capacity.root.prod.capacity</name>
   <value>40</value>
</property>
<property>
   <!--dev占比 60%-->
   <name>yarn.scheduler.capacity.root.dev.capacity</name>
   <value>60</value>
</property>
<property>
   <!-- dev的最大占比 75%-->
   <name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
   <value>75</value>
</property>