Hadoop-生产调优_代码007(未授权)

本文介绍: 1）NameNode 内存计算2）Hadoop2.x系列，配置 NameNode 内存NameNode 内存默认 2000m，如果内存服务器内存 4G，NameNode 内存可以配置 3g。在 hadoop-env.sh 文件中配置如下3）Hadoop3.x系列，配置 NameNode 内存（1）hadoop-env.sh 中描述 Hadoop 的内存是动态分配的（2）查看 NameNode 占用内存（3）查看 DataNode 占用内存。

1）NameNode 内存计算

2）Hadoop2.x系列，配置 NameNode 内存

3）Hadoop3.x系列，配置 NameNode 内存

（1）hadoop-env.sh 中描述 Hadoop 的内存是动态分配的

# The maximum amount of heap to use (Java -Xmx).  If no unit
# is provided, it will be converted to MB.  Daemons will
# prefer any Xmx setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MAX=

# The minimum amount of heap to use (Java -Xms).  If no unit
# is provided, it will be converted to MB.  Daemons will
# prefer any Xms setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MIN=
HADOOP_NAMENODE_OPTS=-Xmx102400m

（2）查看 NameNode 占用内存

[root@node1 ~]# jps
1990 NameNode
2135 DataNode
2553 ResourceManager
1771 QuorumPeerMain
3069 Jps
2703 NodeManager
[root@node1 ~]# jmap -heap 1990
Attaching to process ID 1990, please wait...
Debugger attached successfully.
Server compiler detected.
JVM version is 25.241-b07

using thread-local object allocation.
Parallel GC with 2 thread(s)

Heap Configuration:
   MinHeapFreeRatio         = 0
   MaxHeapFreeRatio         = 100
   MaxHeapSize              = 2046820352 (1952.0MB)	☆
   NewSize                  = 42467328 (40.5MB)
   MaxNewSize               = 682098688 (650.5MB)
   OldSize                  = 85458944 (81.5MB)
   NewRatio                 = 2
   SurvivorRatio            = 8
   MetaspaceSize            = 21807104 (20.796875MB)
   CompressedClassSpaceSize = 1073741824 (1024.0MB)
   MaxMetaspaceSize         = 17592186044415 MB
   G1HeapRegionSize         = 0 (0.0MB)

Heap Usage:
PS Young Generation
Eden Space:
   capacity = 127926272 (122.0MB)
   used     = 114224304 (108.93278503417969MB)
   free     = 13701968 (13.067214965820312MB)
   89.28916806080302% used
From Space:
   capacity = 5242880 (5.0MB)
   used     = 0 (0.0MB)
   free     = 5242880 (5.0MB)
   0.0% used
To Space:
   capacity = 18874368 (18.0MB)
   used     = 0 (0.0MB)
   free     = 18874368 (18.0MB)
   0.0% used
PS Old Generation
   capacity = 122683392 (117.0MB)
   used     = 42217192 (40.261451721191406MB)
   free     = 80466200 (76.7385482788086MB)
   34.411497197599495% used

15419 interned Strings occupying 1436248 bytes.

（3）查看 DataNode 占用内存

[root@node1 ~]# jmap -heap 2135
Attaching to process ID 2135, please wait...
Debugger attached successfully.
Server compiler detected.
JVM version is 25.241-b07

using thread-local object allocation.
Parallel GC with 2 thread(s)

Heap Configuration:
   MinHeapFreeRatio         = 0
   MaxHeapFreeRatio         = 100
   MaxHeapSize              = 2046820352 (1952.0MB)	☆
   NewSize                  = 42467328 (40.5MB)
   MaxNewSize               = 682098688 (650.5MB)
   OldSize                  = 85458944 (81.5MB)
   NewRatio                 = 2
   SurvivorRatio            = 8
   MetaspaceSize            = 21807104 (20.796875MB)
   CompressedClassSpaceSize = 1073741824 (1024.0MB)
   MaxMetaspaceSize         = 17592186044415 MB
   G1HeapRegionSize         = 0 (0.0MB)

Heap Usage:
PS Young Generation
Eden Space:
   capacity = 127926272 (122.0MB)
   used     = 18529608 (17.67121124267578MB)
   free     = 109396664 (104.32878875732422MB)
   14.484599379242443% used
From Space:
   capacity = 5242880 (5.0MB)
   used     = 0 (0.0MB)
   free     = 5242880 (5.0MB)
   0.0% used
To Space:
   capacity = 12058624 (11.5MB)
   used     = 0 (0.0MB)
   free     = 12058624 (11.5MB)
   0.0% used
PS Old Generation
   capacity = 78118912 (74.5MB)
   used     = 15015288 (14.319694519042969MB)
   free     = 63103624 (60.18030548095703MB)
   19.221066468514053% used

15063 interned Strings occupying 1353568 bytes.

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是10。
<property>
    <name>dfs.namenode.handler.count</name>
    <value>21</value>
</property>

[root@node1 ~]# python
Python 2.7.5 (default, Aug  7 2019, 00:51:29) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import math
>>> print int(20*math.log(3))
21

<property>
    <name>fs.trash.interval</name>
    <value>1</value>
</property>

Trash trash = New Trash(conf);
trash.moveToTrash(path);

7）在命令行利用hadoop fs -rm命令删除的文件才会走回收站。

[root@node1 hadoop]# hadoop fs -rm /tmp/lj_tmp/202312/10/input/new_node1_2023-12-10_14_56_54.log
2024-01-28 18:43:21,365 INFO fs.TrashPolicyDefault: Moved: 'hdfs://node1:8020/tmp/lj_tmp/202312/10/input/new_node1_2023-12-10_14_56_54.log' to trash at: hdfs://node1:8020/user/root/.Trash/Current/tmp/lj_tmp/202312/10/input/new_node1_2023-12-10_14_56_54.log

hadoop fs -mv hdfs://node1:8020/user/root/.Trash/Current/tmp/lj_tmp/202312/10/input/new_node1_2023-12-10_14_56_54.log hdfs://node1:8020/tmp/lj_tmp/202312/10/input

[root@node1 hadoop]# python -m SimpleHTTPServer

[root@node1 hadoop]# hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

2021-02-09 10:43:16,853 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 10:43:16 CST 2021
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:         Number of files: 10
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:       Throughput mb/sec: 1.61
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Average IO rate mb/sec: 1.9
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:   IO rate std deviation: 0.76
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:      Test exec time sec: 133.05
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>

[root@node1 hadoop]# hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

2021-02-09 11:34:15,847 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 11:34:15 CST 2021
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:         Number of files: 10
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:       Throughput mb/sec: 200.28
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:  Average IO rate mb/sec: 266.74
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:   IO rate std deviation: 143.12
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:      Test exec time sec: 20.83

[root@node1 hadoop]# hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

<property>
     <name>dfs.namenode.name.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
</property>

[root@node1 hadoop]# rm -rf data/ logs/
[root@node1 hadoop]# rm -rf data/ logs/
[root@node1 hadoop]# rm -rf data/ logs/

[root@node1 hadoop]# bin/hdfs namenode -format
[root@node1 hadoop]# sbin/start-dfs.sh

[root@node1 dfs]# ls
data name1 name2

<property>
     <name>dfs.datanode.data.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

[root@node1 hadoop]# ls
data1 data2 name1 name2

hdfs diskbalancer -plan hadoop103

hdfs diskbalancer -execute hadoop103.plan.json

hdfs diskbalancer -query hadoop103

hdfs diskbalancer -cancel hadoop103.plan.json

vim whitelist

hadoop102
hadoop103

# 保持空的就可以
touch blacklist

<!-- 白名单 -->
<property>
     <name>dfs.hosts</name>
     <value>/export/server/hadoop/etc/hadoop/whitelist</value>
</property>

<!-- 黑名单 -->
<property>
     <name>dfs.hosts.exclude</name>
     <value>/export/server/hadoop/etc/hadoop/blacklist</value>
</property>

xsync whitelist hdfs-site.xml

vim whitelist
hadoop102
hadoop103
hadoop104

hdfs dfsadmin -refreshNodes

vim /etc/sysconfig/network-scripts/ifcfg-ens33
vim /etc/hostname

scp -r /export/server/* root@hadoop105:/export/server
scp /etc/profile.d/my_env.sh root@hadoop105:/etc/profile.d/my_env.sh
source /etc/profile

rm -rf data/ logs/

# 在 hadoop102 上执行
ssh-copy-id hadoop105
# 在 hadoop103 上执行
ssh-copy-id hadoop105

hdfs --daemon start datanode
yarn --daemon start nodemanager

vim whitelist
修改为如下内容
hadoop102
hadoop103
hadoop104
hadoop105

xsync whitelist

dfs dfsadmin -refreshNodes

hadoop dfs -put ./test.txt /tmp

sbin/start-balancer.sh -threshold 10

sbin/stop-balancer.sh

vim blacklist

hadoop105

<!-- 黑名单 -->
<property>
     <name>dfs.hosts.exclude</name>
     <value>/export/server/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>

xsync hdfs-site.xml blacklist

hdfs dfsadmin -refreshNodes

hdfs --daemon stop datanode
yarn --daemon stop nodemanager

sbin/start-balancer.sh -threshold 10

hdfs ec

hdfs ec -listPolicies

hdfs ec -enablePolicy -policy RS-3-2-1024k

hdfs dfs -mkdir /input
hdfs ec -setPolicy -path /input -policy RS-3-2-1024k

hdfs dfs -put test.txt /input

hdfs storagepolicies -listPolicies

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

hdfs storagepolicies -getStoragePolicy -path xxx

hdfs storagepolicies -unsetStoragePolicy -path xxx

hdfs fsck xxx -files -blocks -locations

hadoop dfsadmin -report

节点	存储类型分配
hadoop102	RAM_DISK，SSD
hadoop103	SSD，DISK
hadoop104	DISK，RAM_DISK
hadoop105	ARCHIVE
hadoop106	ARCHIVE

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name> 
	<value>[SSD]file:///export/server/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///export/server/hadoop-3.1.3/hdfsdata/ram_disk</value>
</property>

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[SSD]file:///export/server/hadoop-3.1.3/hdfsdata/ssd,[DISK]file:///export/server/hadoop-3.1.3/hdfsdata/disk</value>
</property>

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[RAM_DISK]file:///export/server/hdfsdata/ram_disk,[DISK]file:///export/server/hadoop-3.1.3/hdfsdata/disk</value>
</property>

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[ARCHIVE]file:///export/server/hadoop-3.1.3/hdfsdata/archive</value>
</property>

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[ARCHIVE]file:///export/server/hadoop-3.1.3/hdfsdata/archive</value>
</property>

start-all.sh

hdfs fs -mkdir /testdir

hdfs dfs -put ./text.txt /testdir

hdfs storagepolicies -getStoragePolicy -path /testdir

hdfs fsck /testdir -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.104:9866,DS-0b133854-7f9e-48df-939b-5ca6482c5afb,DISK], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

hdfs storagepolicies -setStoragePolicy -path /testdir -policy WARM

hdfs fsck /testdir -files -blocks -locations

hdfs mover /testdir

hdfs fsck /testdir -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.105:9866,DS-d46d08e1-80c6-4fca-b0a2-4a3dd7ec7459,ARCHIVE], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

hdfs storagepolicies -setStoragePolicy -path /testdir -policy COLD

hdfs mover /testdir

hdfs fsck /testdir -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.105:9866,DS-d46d08e1-80c6-4fca-b0a2-4a3dd7ec7459,ARCHIVE], DatanodeInfoWithStorage[192.168.10.106:9866,DS-827b3f8b-84d7-47c6-8a14-0166096f919d,ARCHIVE]]

hdfs storagepolicies -setStoragePolicy -path /testdir -policy One_SSD

hdfs mover /testdir

hdfs fsck /testdir -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.104:9866,DS-0b133854-7f9e-48df-939b-5ca6482c5afb,DISK], DatanodeInfoWithStorage[192.168.10.103:9866,DS-2481a204-59dd-46c0-9f87-ec4647ad429a,SSD]]

hdfs storagepolicies -setStoragePolicy -path /testdir -policy All_SSD

hdfs mover /testdir

hdfs fsck /testdir -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.102:9866,DS-c997cfb4-16dc-4e69-a0c4-9411a1b0c1eb,SSD], DatanodeInfoWithStorage[192.168.10.103:9866,DS-2481a204-59dd-46c0-9f87-ec4647ad429a,SSD]]

hdfs storagepolicies -setStoragePolicy -path /testdir -policy lazy_persist

hdfs mover /testdir

hdfs fsck /testdir -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.104:9866,DS-0b133854-7f9e-48df-939b-5ca6482c5afb,DISK], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain
java.lang.RuntimeException: Cannot start datanode because the configured max locked memory size (dfs.datanode.max.locked.memory) of 209715200 bytes is more than the datanode's available RLIMIT_MEMLOCK ulimit of 65536 bytes.

ulimit -a

kill -9 2078

rm -rf /export/server/hadoop-3.1.3/data/tmp/dfs/name/*

scp -r root@hadoop104：/export/server/hadoop-3.1.3/data/tmp/dfs/name /export/server/hadoop-3.1.3/data/tmp/dfs/name

hdfs --daemon start namenode

hdfs dfs ./test.txt /tmp

hdfs dfsadmin -safemode get	（功能描述：查看安全模式状态）
hdfs dfsadmin -safemode enter （功能描述：进入安全模式状态）
hdfs dfsadmin -safemode leave	（功能描述：离开安全模式状态）
hdfs dfsadmin -safemode wait	（功能描述：等待安全模式状态）

stop-all.sh
start-all.sh

cd /export/server/hadoop-3.1.3/data/dfs/data/current/BP-1015489500-192.168.10.102-1611909480872/current/finalized/subdir0/subdir0
rm -rf blk_1073741847 blk_1073741847_1023.meta
rm -rf blk_1073741865 blk_1073741865_1042.meta

start-all.sh

hdfs dfsadmin -safemode get
hdfs dfsadmin -safemode leave

hdfs dfsadmin -safemode get

hdfs dfsadmin -safemode enter

vim safemode.sh

#!/bin/bash
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /

sh safemode.sh

hdfs dfsadmin -safemode leave

Safe mode is OFF

yum install -y fio
fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r

Run status group 0 (all jobs):
   READ: bw=360MiB/s (378MB/s), 360MiB/s-360MiB/s (378MB/s-378MB/s), io=20.0GiB (21.5GB), run=56885-56885msec

fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w

Run status group 0 (all jobs):
  WRITE: bw=341MiB/s (357MB/s), 341MiB/s-341MiB/s (357MB/s-357MB/s), io=19.0GiB (21.4GB), run=60001-60001msec

fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw

Run status group 0 (all jobs):
  WRITE: bw=309MiB/s (324MB/s), 309MiB/s-309MiB/s (324MB/s-324MB/s), io=18.1GiB (19.4GB), run=60001-60001msec

fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop

Run status group 0 (all jobs):
   READ: bw=220MiB/s (231MB/s), 220MiB/s-220MiB/s (231MB/s-231MB/s), io=12.9GiB (13.9GB), run=60001-60001msec
  WRITE: bw=94.6MiB/s (99.2MB/s), 94.6MiB/s-94.6MiB/s (99.2MB/s-99.2MB/s), io=5674MiB (5950MB), run=60001-60001msec

start-yarn.sh

hadoop archive -archiveName input.har -p  /input   /output

hadoop fs -ls /output/input.har

hadoop fs -cp har:///output/input.har/*    /

# 推 push
scp -r hello.txt root@hadoop103:/root/tmp/hello.txt		
# 拉 pull
scp -r root@hadoop103:/root/tmp/hello.txt  hello.txt		
#  是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间 ssh 没有配置的情况下可以使用该方式。
scp -r root@hadoop103:/root/tmp/hello.txt root@hadoop104:/root/tmp

hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt hdfs://hadoop105:8020/user/atguigu/hello.txt

vim /etc/hosts

# 分发数据
xsync /etc/hosts

<!--配置nameservice-->
<property>
  <name>dfs.nameservices</name>
  <value>mycluster,nameservice1</value>
</property>

<!--指定本地服务-->
<property>
  <name>dfs.internal.nameservices</name>
  <value>mycluster,nameservice1</value>
</property>
<!--配置多NamenNode-->
<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2,nn3</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>hadoop101:8020</value>
</property>
<property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>hadoop102:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn3</name>
  <value>hadoop103:8020</value>
</property>
<!--配置nameservice1的namenode服务-->
<property>
    <name>dfs.ha.namenodes.nameservice1</name>
    <value>namenode30,namenode37</value>
  </property>
 <property>
    <name>dfs.namenode.rpc-address.nameservice1.namenode30</name>
    <value>hadoop104:8020</value>
  </property>
<property>
    <name>dfs.namenode.rpc-address.nameservice1.namenode37</name>
    <value>hadoop106:8020</value>
  </property>
<property>
    <name>dfs.namenode.http-address.nameservice1.namenode30</name>
    <value>hadoop104:9870</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.nameservice1.namenode37</name>
    <value>hadoop106:9870</value>
  </property>
  <property>
    <name>dfs.client.failover.proxy.provider.nameservice1</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>
<!--为NamneNode设置HTTP服务监听-->
<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>hadoop101:9870</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>hadoop102:9870</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn3</name>
  <value>hadoop103:9870</value>
</property>
<!--配置HDFS客户端联系Active NameNode节点的Java类-->
<property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

vim /etc/hosts

xsync /etc/hosts

<property>
	<name>dfs.nameservices</name>
	<value>mycluster,nameservice1</value>
</property>

<property>
	<name>dfs.internal.nameservices</name>
	<value>nameservice1</value>
</property>

<property>
	<name>dfs.ha.namenodes.mycluster</name>
	<value>nn1,nn2,nn3</value>
</property>

<property>
	<name>dfs.namenode.rpc-address.mycluster.nn1</name>
	<value>hadoop104:8020</value>
</property>

<property>
	<name>dfs.namenode.rpc-address.mycluster.nn2</name>
	<value>hadoop105:8020</value>
</property>

<property>
	<name>dfs.namenode.rpc-address.mycluster.nn3</name>
	<value>hadoop106:8020</value>
</property>

<property>
	<name>dfs.namenode.http-address.mycluster.nn1</name>
	<value>hadoop104:9870</value>
</property>

<property>
	<name>dfs.namenode.http-address.mycluster.nn2</name>
	<value>hadoop105:9870</value>
</property>

<property>
	<name>dfs.namenode.http-address.mycluster.nn3</name>
	<value>hadoop106:9870</value>
</property>

<property>
	<name>dfs.client.failover.proxy.provider.mycluster</name>
	<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

hadoop distcp -Dmapred.job.queue.name=hive  webhdfs://mycluster:9070/user/hive/warehouse/dwd.db/  hdfs://nameservice1/user/hive/warehouse

#!/bin/bash
hive -e "use dwd;show tables">tables.txt
cat tables.txt |while read eachline
do
hive -e "use dwd;show create table $eachline">>tablesDDL.txt
echo ";" >> tablesDDL.txt
done

xsync tablesDDL.txt

hive
hive> create database dwd;

sed -i "s#createtab_stmt# #g" tablesDDL.txt

hive -f tablesDDL.txt

vim msckPartition.sh

#!/bin/bash
hive -e "use dwd;show tables">tables.txt
cat tables.txt |while read eachline
do
hive -e "use dwd;MSCK REPAIR TABLE $eachline"
done

[root@hadoop101 module]# chmod +777 msckPartition.sh 
[root@hadoop101 module]# ./msckPartition.sh

4）在不影响业务结果的前提条件下可以提前采用Combiner

# 处理调度器请求的线程数量
yarn.resourcemanager.scheduler.client.thread-count	ResourceManager
# 配置调度器
yarn.resourcemanager.scheduler.class

# NodeManager使用内存数
yarn.nodemanager.resource.memory-mb	              
# NodeManager为系统保留多少内存，和上一个参数二者取一即可
yarn.nodemanager.resource.system-reserved-memory-mb  
# NodeManager使用CPU核数
yarn.nodemanager.resource.cpu-vcores	
# 是否将虚拟核数当作CPU核数
yarn.nodemanager.resource.count-logical-processors-as-cores	
# 虚拟核数和物理核数乘数，例如：4核8线程，该参数就应设为2
yarn.nodemanager.resource.pcores-vcores-multiplier	
# 是否让yarn自己检测硬件进行配置
yarn.nodemanager.resource.detect-hardware-capabilities	
# 是否开启物理内存检查限制container
yarn.nodemanager.pmem-check-enabled	
# 是否开启虚拟内存检查限制container
yarn.nodemanager.vmem-check-enabled	
# 虚拟内存物理内存比例
yarn.nodemanager.vmem-pmem-ratio

# 容器最小内存
yarn.scheduler.minimum-allocation-mb	     
# 容器最大内存
yarn.scheduler.maximum-allocation-mb	     
# 容器最小核数
yarn.scheduler.minimum-allocation-vcores	 
# 容器最大核数
yarn.scheduler.maximum-allocation-vcores

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output2

2021-02-14 16:13:50,607 INFO mapreduce.Job: Job job_1613281510851_0002 running in uber mode : false

<!--  开启uber模式，默认关闭 -->
<property>
  	<name>mapreduce.job.ubertask.enable</name>
  	<value>true</value>
</property>

<!-- uber模式中最大的mapTask数量，可向下修改  --> 
<property>
  	<name>mapreduce.job.ubertask.maxmaps</name>
  	<value>9</value>
</property>
<!-- uber模式中最大的reduce数量，可向下修改 -->
<property>
  	<name>mapreduce.job.ubertask.maxreduces</name>
  	<value>1</value>
</property>
<!-- uber模式中最大的输入数据量，默认使用dfs.blocksize 的值，可向下修改 -->
<property>
  	<name>mapreduce.job.ubertask.maxbytes</name>
  	<value></value>
</property>

xsync mapred-site.xml

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output2

2021-02-14 16:28:36,198 INFO mapreduce.Job: Job job_1613281510851_0003 running in uber mode : true

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"

export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

<!-- NameNode有一个工作线程池，默认值是10 -->
<property>
    <name>dfs.namenode.handler.count</name>
    <value>21</value>
</property>

<!-- 配置垃圾回收时间为60分钟 -->
<property>
    <name>fs.trash.interval</name>
    <value>60</value>
</property>

xsync hadoop-env.sh hdfs-site.xml core-site.xml

<!-- 环形缓冲区大小，默认100m -->
<property>
  <name>mapreduce.task.io.sort.mb</name>
  <value>100</value>
</property>

<!-- 环形缓冲区溢写阈值，默认0.8 -->
<property>
  <name>mapreduce.map.sort.spill.percent</name>
  <value>0.80</value>
</property>

<!-- merge合并次数，默认10个 -->
<property>
  <name>mapreduce.task.io.sort.factor</name>
  <value>10</value>
</property>

<!-- maptask内存，默认1g； maptask堆内存大小默认和该值大小一致mapreduce.map.java.opts -->
<property>
  <name>mapreduce.map.memory.mb</name>
  <value>-1</value>
  <description>The amount of memory to request from the scheduler for each    map task. If this is not specified or is non-positive, it is inferred from mapreduce.map.java.opts and mapreduce.job.heap.memory-mb.ratio. If java-opts are also not specified, we set it to 1024.
  </description>
</property>

<!-- matask的CPU核数，默认1个 -->
<property>
  <name>mapreduce.map.cpu.vcores</name>
  <value>1</value>
</property>

<!-- matask异常重试次数，默认4次 -->
<property>
  <name>mapreduce.map.maxattempts</name>
  <value>4</value>
</property>

<!-- 每个Reduce去Map中拉取数据的并行数。默认值是5 -->
<property>
  <name>mapreduce.reduce.shuffle.parallelcopies</name>
  <value>5</value>
</property>

<!-- Buffer大小占Reduce可用内存的比例，默认值0.7 -->
<property>
  <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
  <value>0.70</value>
</property>

<!-- Buffer中的数据达到多少比例开始写入磁盘，默认值0.66。 -->
<property>
  <name>mapreduce.reduce.shuffle.merge.percent</name>
  <value>0.66</value>
</property>

<!-- reducetask内存，默认1g；reducetask堆内存大小默认和该值大小一致mapreduce.reduce.java.opts -->
<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>-1</value>
  <description>The amount of memory to request from the scheduler for each    reduce task. If this is not specified or is non-positive, it is inferred
    from mapreduce.reduce.java.opts and mapreduce.job.heap.memory-mb.ratio.
    If java-opts are also not specified, we set it to 1024.
  </description>
</property>

<!-- reducetask的CPU核数，默认1个 -->
<property>
  <name>mapreduce.reduce.cpu.vcores</name>
  <value>2</value>
</property>

<!-- reducetask失败重试次数，默认4次 -->
<property>
  <name>mapreduce.reduce.maxattempts</name>
  <value>4</value>
</property>

<!-- 当MapTask完成的比例达到该值后才会为ReduceTask申请资源。默认是0.05 -->
<property>
  <name>mapreduce.job.reduce.slowstart.completedmaps</name>
  <value>0.05</value>
</property>

<!-- 如果程序在规定的默认10分钟内没有读到数据，将强制超时退出 -->
<property>
  <name>mapreduce.task.timeout</name>
  <value>600000</value>
</property>

xsync mapred-site.xml

<!-- 选择调度器，默认容量 -->
<property>
	<description>The class to use as the resource scheduler.</description>
	<name>yarn.resourcemanager.scheduler.class</name>
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

<!-- ResourceManager处理调度器请求的线程数量,默认50；如果提交的任务数大于50，可以增加该值，但是不能超过3台 * 4线程 = 12线程（去除其他应用程序实际不能超过8） -->
<property>
	<description>Number of threads to handle scheduler interface.</description>
	<name>yarn.resourcemanager.scheduler.client.thread-count</name>
	<value>8</value>
</property>

<!-- 是否让yarn自动检测硬件进行配置，默认是false，如果该节点有很多其他应用程序，建议手动配置。如果该节点没有其他应用程序，可以采用自动 -->
<property>
	<description>Enable auto-detection of node capabilities such as
	memory and CPU.
	</description>
	<name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
	<value>false</value>
</property>

<!-- 是否将虚拟核数当作CPU核数，默认是false，采用物理CPU核数 -->
<property>
	<description>Flag to determine if logical processors(such as
	hyperthreads) should be counted as cores. Only applicable on Linux
	when yarn.nodemanager.resource.cpu-vcores is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true.
	</description>
	<name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>
	<value>false</value>
</property>

<!-- 虚拟核数和物理核数乘数，默认是1.0 -->
<property>
	<description>Multiplier to determine how to convert phyiscal cores to
	vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
	is set to -1(which implies auto-calculate vcores) and
	yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The	number of vcores will be calculated as	number of CPUs * multiplier.
	</description>
	<name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
	<value>1.0</value>
</property>

<!-- NodeManager使用内存数，默认8G，修改为4G内存 -->
<property>
	<description>Amount of physical memory, in MB, that can be allocated 
	for containers. If set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically calculated(in case of Windows and Linux).
	In other cases, the default is 8192MB.
	</description>
	<name>yarn.nodemanager.resource.memory-mb</name>
	<value>4096</value>
</property>

<!-- nodemanager的CPU核数，不按照硬件环境自动设定时默认是8个，修改为4个 -->
<property>
	<description>Number of vcores that can be allocated
	for containers. This is used by the RM scheduler when allocating
	resources for containers. This is not used to limit the number of
	CPUs used by YARN containers. If it is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically determined from the hardware in case of Windows and Linux.
	In other cases, number of vcores is 8 by default.</description>
	<name>yarn.nodemanager.resource.cpu-vcores</name>
	<value>4</value>
</property>

<!-- 容器最小内存，默认1G -->
<property>
	<description>The minimum allocation for every container request at the RM	in MBs. Memory requests lower than this will be set to the value of this	property. Additionally, a node manager that is configured to have less memory	than this value will be shut down by the resource manager.
	</description>
	<name>yarn.scheduler.minimum-allocation-mb</name>
	<value>1024</value>
</property>

<!-- 容器最大内存，默认8G，修改为2G -->
<property>
	<description>The maximum allocation for every container request at the RM	in MBs. Memory requests higher than this will throw an	InvalidResourceRequestException.
	</description>
	<name>yarn.scheduler.maximum-allocation-mb</name>
	<value>2048</value>
</property>

<!-- 容器最小CPU核数，默认1个 -->
<property>
	<description>The minimum allocation for every container request at the RM	in terms of virtual CPU cores. Requests lower than this will be set to the	value of this property. Additionally, a node manager that is configured to	have fewer virtual cores than this value will be shut down by the resource	manager.
	</description>
	<name>yarn.scheduler.minimum-allocation-vcores</name>
	<value>1</value>
</property>

<!-- 容器最大CPU核数，默认4个，修改为2个 -->
<property>
	<description>The maximum allocation for every container request at the RM	in terms of virtual CPU cores. Requests higher than this will throw an
	InvalidResourceRequestException.</description>
	<name>yarn.scheduler.maximum-allocation-vcores</name>
	<value>2</value>
</property>

<!-- 虚拟内存检查，默认打开，修改为关闭 -->
<property>
	<description>Whether virtual memory limits will be enforced for
	containers.</description>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
</property>

<!-- 虚拟内存和物理内存设置比例,默认2.1 -->
<property>
	<description>Ratio between virtual memory to physical memory when	setting memory limits for containers. Container allocations are	expressed in terms of physical memory, and virtual memory usage	is allowed to exceed this allocation by this ratio.
	</description>
	<name>yarn.nodemanager.vmem-pmem-ratio</name>
	<value>2.1</value>
</property>

xsync yarn-site.xml

stop-yarn.sh
start-yarn.sh

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

第1章 HDFS-核心参数

1.1 NameNode内存生产配置

1.2 NameNode 心跳并发配置

1.3 开启回收站配置

第2章 HDFS-集群压测

2.1 测试 HDFS 写性能

2.2 测试 HDFS 读性能

第3章 HDFS 多目录

3.1 NameNode 多目录配置

3.2 DataNode 多目录配置

3.3 集群数据均衡之磁盘间数据均衡

第4章 HDFS–集群扩容及缩容

4.1 添加白名单

4.2 服役新服务器

4.3 服务器间数据均衡

4.4 黑名单退役服务器

第5章 HDFS-存储优化

5.1 纠删码

5.1.1 纠删码原理

5.1.2 纠删码案例实操

5.2 异构存储（冷热数据分离）

5.2.1 异构存储 Shell 操作

5.2.2 测试环境准备

5.2.3 HOT 存储策略案例

5.2.4 WARM存储策略测试

5.2.5 COLD 策略测试

5.2.6 ONE_SSD策略测试

5.2.7 ALL_SSD策略测试

5.2.8 LAZY_PERSIST策略测试

第6章 HDFS-故障排除

6.1 NameNode 故障处理

6.2 集群安全模式&磁盘修复

6.3 慢磁盘监控

6.4 小文件归档

第7章 HDFS-集群迁移

7.1 Apache 和 Apache 集群间数据拷贝

7.2 Apache 和 CDH 集群间拷贝数据

第8章 MapReduce 生产经验

8.1 MapReduce 跑得慢的原因

8.2 MapReduce 常用调优参数

8.3 MapReduce 数据倾斜问题

第9章 Hadoop-YARN 生产经验

9.1 常用的调优参数

第10章 Hadoop 综合调优

10.1 Hadoop 小文件优化方法

10.1.1 Hadoop 小文件弊端

10.1.2 Hadoop小文件解决方案

10.2 测试MapReduce计算性能

10.3 企业开发场景案例

10.3.1 需求

10.3.2 HDFS 参数调优

10.3.3 MapReduce参数调优

10.3.4 Yarn 参数调优

10.3.5 执行程序

相关文章

发表回复 取消回复

发表回复取消回复