【HBase】——优化_代码007(未授权)

本文介绍: HBase 优化方案

重要：一条数据的唯一标识就是 rowkey，那么这条数据存储于哪个分区，取决于 rowkey 处于哪个一个预分区的区间内，设计 rowkey的主要目的，就是让数据均匀的分布于所有的 region 中，在一定程度上防止数据倾斜。
设计方案如下：

rowKey 设计格式 => ^A^Auser

hbase 设计 rowKey 使用的特点为：适用性强泛用性差能够完美实现一个需求但是不能同时完美实现多个需要。
如果想要同时完成两个需求，需要对 rowKey 出现字段的顺序进行调整。
调整的原则为：可枚举的放在前面。其中时间是可以枚举的，用户名称无法枚举，所以必须把时间放在前面。

rowKey 设计格式 => date(yyyy-MM)^A^Auserdate(-dd hh:mm:ss ms)

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的 rowKey 范围，则该数据交给这个 region 维护。
预分区的分区号同样需要遵守 rowKey 的 scan 原则。所有必须添加在 rowKey 的最前面，前缀为最简单的数字。同时使用 hash 算法将用户名和月份拼接决定分区号。（单独使用用户名会造成单一用户所有数据存储在一个分区）

根据12个月，规划120个分区，每个分区有startKey 和stopKey，采用startKey 作为分区号

添加预分区优化
startKey    stopKey
000         001
001         002
002         003
...
119         120

每一个月份对应10个分区

000 到 009 分区 存储的都是 1 月份数据
010 到 019 分区 存储的都是 2 月份数据
...
110 到 119 分区 存储的都是 12 月份数据

rowKey 设计格式 => 分区号date(yyyy-MM)^A^Auserdate(-dd hh:mm:ss ms)

分区号=> hash(user+date(MM)) % 10 + 对应月份初始分区号
分区号填充 如果得到 85 => 085
例：zhagnsan  2022-02-14 12：34：45

分区号=hash(zhagnsan+date(02)) % 10 + 20 = 25
分区号补0  ：025
用户名补^A ：^A^Azhagnsan
rowKey => 0252022-02^A^Azhagnsan-14 12：34：45

可以穷举的写在前面即可 rowKey 设计格式 => 分区号date(yyyy-MM)^A^Auserdate(-dd 
hh:mm:ss ms)

（1）统计张三在 2021 年 12 月份消费的总金额
分区号=> hash(user+date(MM)) % 10 + 110
scan: startRow => 分区号2021-12^AAzhangsan stopRow => 2021-12^AAzhangsan.
（2）统计所有人在 2021 年 12 月份消费的总金额
分区号=> hash(user+date(MM)) % 10 + 110
scan: startRow => 分区号2021-12 stopRow => 分区号2021-12.

-XX:+UseConcMarkSweepGC

//在内存占用到 70%的时候开启 GC
-XX:CMSInitiatingOccupancyFraction=70
//指定使用 70%，不让 JVM 动态调整
-XX:+UseCMSInitiatingOccupancyOnly
//新生代内存设置为 512m
-Xmn512m
//并行执行新生代垃圾回收
-XX:+UseParNewGC
// 设 置 scanner 扫 描 结 果 占 用 内 存 大 小 ， 在 hbase-site.xml 中，设置
hbase.client.scanner.max.result.size(默认值为 2M)为 eden 空间的 1/8（大概在 64M）
// 设置多个与 max.result.size * handler.count 相乘的结果小于 Survivor Space(新生代经过垃圾回收之后存活的对象)

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

1 RowKey设计

1.1 RowKey定长

1.2 可枚举的部分放在前面

1.3 添加预分区优化

1.3.1 预规划分区

1.3.2 提前将分区号和月份进行对应。

1.3.3 设计rowKey

1.3.4 根据用户名和事件获取rowKey值

1.4 案例

2 参数调优

2.1 Zookeeper 会话超时时间

2.2 设置 RPC 监听数量

2.3 手动控制 Major Compaction

2.4 优化 HStore 文件大小

2.5 优化 HBase 客户端缓存

2.6 指定 scan.next 扫描 HBase 所获取的行数

2.7 BlockCache 占用 RegionServer 堆内存的比例

2.8 MemStore 占用 RegionServer 堆内存的比例

3 JVM 调优

4 HBase 使用经验法则

发表回复取消回复