Hdoop学习笔记（HDP）-Part.14 安装YARN+MR

本文介绍: 使用Yarn提交MapRe duce 任务的时候，中间结果会保存在HDFS，/user/username/，如果/user 目录下用户目录下不存在，则被创建，当MR执行结束之后，中间结果会被删除，目录保留。因此需要在Rang e r中对/use r的权限做策略。

目录
Part.01 关于HDP
Part.02 核心组件原理
 Part.03 资源规划
 Part.04 基础环境配置
 Part.05 Yum源配置
 Part.06 安装OracleJDK
Part.07 安装MySQL
Part.08 部署Ambari集群
 Part.09 安装OpenLDAP
Part.10 创建集群
 Part.11 安装Kerberos
Part.12 安装HDFS
Part.13 安装Ranger
Part.14 安装YARN+MR
Part.15 安装HIVE
Part.16 安装HBase
Part.17 安装Spark2
Part.18 安装Flink
Part.19 安装Kafka
Part.20 安装Flume

使用Yarn提交MapRe duce 任务的时候，中间结果会保存在HDFS，/use r/username/，如果/use r目录下用户目录下不存在，则被创建，当MR执行结束之后，中间结果会被删除，目录保留。因此需要在Rang e r中对/us e r的权限做策略。
在这里插入图片描述

在这里插入图片描述

YARN的部分存储路径调整：
Nod e Mana ger
YARN NodeMana ger Loc al direct orie s：/data01/hadoop/yarn/local
YARN NodeManager Log directorie s：/data01/hadoop/yarn/log
Ap pli cat ion Ti meline Server
yarn.timeline–service.level db–state–store.path：/data01/hadoop/yarn/timeline
yarn.timeline–service.level db–timeline–store.path：/data01/hadoop/yarn/timeline
Ad vance d yarn–hbase–env
i s _hbase _system _service _launch：true
use_external _hbase：false
YARN可使用内置的HBase数据库，也可以使用外部；使用内置时，需要is_hbase _system _service _launch 设置为true
Ad vance d ranger–yarn–security
Add YARN Authorizat ion：取消勾选
该选项是禁用YARN本身的ACL权限控制，YARN队列的权限控制由RANGER统一管理
注：需要先对NameNode页面的认证取消了，否则ResourceManager修改后也不生效
MAPREDUCE2的部分存储路径调整：
Ad vance d map red–site
map reduce.job history.recovery.store.level db.path：/data01/hadoop/map reduce/jhs
Custom mapred-site
mapred.local.dir：/data01/hadoop/mapred
在这里插入图片描述

在ACTIONS->Enable ResourceManager HA中配置
在这里插入图片描述

启用HA后，会在/etc/hadoop/conf/y arn-si te.xml中出现如下关于HA的配置项
在这里插入图片描述
指定 zk下对应的文件目录为/y arn-leader–elect ion，对应的rm 节点为hdp01.h dp.com和h dp02.h dp.com
在zookeeper中查看也同样生成了对应的文件目录

①CPU资源调度
目前的CPU被划分为虚拟CPU，这里的虚拟CPU是y arn自己引入的概念，因为每个服务器的CPU计算能力不一样，有的机器可能是其他机器计算能力的两倍，然后可以通过多配置几个虚拟CPU弥补差异。在y arn中，CPU的相关配置如下：
yarn.node manager.resource.cpu–v cores
表示该节点上YARN可使用的虚拟CPU个数，默认是8，注意，目前推荐将该值设置为与物理CPU核数数目相同。如果节点CPU核数不够8个，则需要调减小这个值，而YARN不会智能的探测节点的物理CPU总数。
yarn.scheduler.mini mum-allocation–v cores
单个任务可申请的最小虚拟CPU个数，默认是1，如果一个任务申请的CPU个数少于该数，则该对应的值改为这个数。
yarn.scheduler.maximum-allocation–v cores
单个任务可申请的最多虚拟CPU个数，默认是4。这里说的cpu个数都是说的虚拟cpu，默认的是1个物理 cpu=2个虚拟cpu。
②Memo ry 资源调度
yarn一般允许用户配置每个节点上可用的物理资源，注意，这里是”可用的”，不是物理内存多少，就设置多少，因为一个服务器节点上会有若干的内存，一部分给yarn，一部分给hdfs，一部分给hbase。在yarn中，Memo ry 相关的配置如下：
yarn.node manager.resource.memory–mb
设置该节点上yarn可使用的内存，默认为8G，如果节点内存资源不足8G，要减少这个值，yarn不会智能的去检测内存资源，一般这个设置yarn的可用内存资源
yarn.scheduler.mini mum-allocation–mb
单个任务可申请的最小的内存大小，默认是1G，当内存不够时，会自动按照一定大小累加内存。
yarn.scheduler.maximum-allocation–mb
单个任务最大申请物理内存量，默认为8291MB
③示例
以h dp03-05（8C、8G）为例，
yarn.node manager.resource.cpu–v cores 虚拟core
这个参数根据自己生产服务器决定，比如服务器很富裕，那就直接1:1，设置成8，如果服务器不是很富裕，那就直接成1:2,设置成8，本次设置为16
yarn.node manager.resource.memory–mb 总内存
生产上一般要预留15-20%的内存，那么可用内存就是8*0.8=6.4G，本次设置为6G
yarn.scheduler.mini mum-allocation–mb 单任务最小内存
如果设置成500M，那6/0.5 = 12，就是最多可以跑12个container
如果设置成1G，那6/1 = 6，就是最多可以跑6个container
本次设置为1G
yarn.scheduler.mini mum-allocation-vcores 单任务最少vcore
如果设置vco re = 1，那么16/1 = 16，就是最多可以跑16个container，如果设置成这个，根据上面内存分配的情况，最多只能跑6个container，vco re有点浪费
如果设置vco re = 2，那么16/2 = 8，就是最多可以跑8个container
yarn.scheduler.maximum–allocat ion-vco res 单任务最多vco re
一般就设置成4个，cloudera 公司做过性能测试，如果cpu 大于等于5之后，cpu 利用率反而不是很好（固定经验值）
yarn.scheduler.maximum–allocat ion–mb 单任务最大内存
这个要根据实际业务设定，如果有大任务

kadmin.local
addprinc -randkey ranger_yarn
ktadd -kt /root/keytab/ranger_yarn.keytab ranger_yarn

kinit -kt /root/keytab/ranger_yarn.keytab ranger_yarn
hadoop jar /root/hadoop-mapreduce-examples-3.1.1.3.0.1.4-1.jar pi -Dmapred.job.queue.name=offline 10 50

kinit -kt /etc/security/keytabs/nn.service.keytab nn/hdp01.hdp.com@HDP315.COM
hdfs dfs -mkdir /testhdfs/ranger_yarn
kinit -kt /root/keytab/ranger_yarn.keytab ranger_yarn
hdfs dfs -put /root/wordcount_input /testhdfs/ranger_yarn
hdfs dfs -ls /testhdfs/ranger_yarn

kinit -kt /root/keytab/ranger_yarn.keytab ranger_yarn
hadoop jar /root/hadoop-mapreduce-examples-3.1.1.3.0.1.4-1.jar wordcount -Dmapred.job.queue.name=offline /testhdfs/ranger_yarn/wordcount_input /testhdfs/ranger_yarn/wordcount_output

hdfs dfs -cat /testhdfs/ranger_yarn/wordcount_output/part-r-00000

yarn application -list
yarn application -list -appStates <ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,FINISHED,FAILED,KILLED>

yarn application -kill <application_id>

yarn logs -applicationId <ApplicationId>

yarn logs -applicationId -containerId <ApplicationId> -containerId <ContainerId>

yarn applicationattempt -list<ApplicationId>

yarn applicationattempt -status <ApplicationAttemptId>

yarn container -list <ApplicationAttemptId>

yarn container -status <ContainerId>

java.util.concurrent.ExecutionException: org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /atsv2-hbase-secure/hbaseid

Error creating intermediate done directory: [hdfs://hdp315:8020/mr-history/tmp]
Permission denied: user=mapred, access=WRITE, inode="/mr-history"

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

user 安装目录

十四、安装YARN+MR

1.MR中间结果存储 权限

2.安装 服务

3.ResourceManager HA

(1)启用HA

(2)确认 配置文件

(3)确认YARN、MR2配置

4.测试

(1)创建租户并分配对应的资源队列

(2)队列使用权限

5.常用指令

6.常见 报错

(1)Timel ine Servi ce 启动报错

(2)History Server启动一会后报错

(3)告警：ATS embedded HBase is NOT running on hdp01.hdp.com

(4)提交任务后状态一直为ACCEPTED

发表回复取消回复

十四、安装YARN+MR

1.MR中间结果存储权限

2.安装服务