基于hadoop下的hbase安装_代码007(未授权)

本文介绍: HBa s e是一个分布式的、面向列的开源数据库，该技术来源于Fa y Chang所撰写的Go o gl e 论文“Bi g table：一个结构化数据的分布式存储系统”。就像Bi g table 利用了Go o gl e 文件系统（File Sy ste m）所提供的分布式数据存储一样，HBa s e在Had oop之上提供了类似于Bi g table的能力。HBa s e是Ap a ch e的Had oop 项目的子项目。HBas e 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBas e 基于列的而不是基于行的模式。

HBas e是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang所撰写的Go o gle论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable 利用了Google文件系统（File Syste m）所提供的分布式数据存储一样，HBase在Had oop之上提供了类似于Bigtable的能力。HBase是Apache的Had oop 项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Ser ver上搭建起大规模结构化存储集群。

        稀疏：HBase的列理论上是允许无限扩展的，对于成百万的列来说，会有大量的空值，如果使用 null 填充的策略，势必会造成大量空间的浪费，因此，稀疏性是HBase无限扩展的一个重要条件。
        排序：构成HBase的k v在同一文件中都是有序的，首先是row key（行键）升序排序，row key相同则column key（列族和修饰符）升序排序，row key、column key相同则timestamp（时间戳）降序排序。
        分布式：构成HBase的map都不在某台机器上，而是分布在整个集群中。

   HBase不支持条件查询，只支持按照Row key来查询。这意味着用户需要预先知道查询条件，否则无法进行查询。
   HBase暂时不能支持Master server的故障切换，当Master宕机后，整个存储系统就会挂掉。这可能会对系统稳定性造成一定影响。
   HBase的数据类型只有简单的字符类型，所有的类型都是交由用户自己处理，它只保存字符串。相比之下，关系数据库有丰富的类型和存储方式。
   HBase只有很简单的插入、查询、删除、清空等操作，表和表之间是分离的，没有复杂的表和表之间的关系，而传统数据库通常有各式各样的函数和连接操作。

（1）表
HBase是一种列式存储的分布式数据库，其核心概念是表（Table）。与传统关系型数据库一样，HBase的表也是由行和列组成，但HBase同一列可以存储不同时刻的值，同时多个列可以组成一个列簇（Column Family），这种组织形式主要基于存取性能。
（2）行键
        RowKey既是HBase表的行键，也是HBase表的主键。HBase表中的记录是按照RowKey的字典顺序进行存储的。在HBase中，为了高效地检索数据，需要设计良好的RowKey来提高查询性能。首先RowKey被冗余存储，所以长度不宜过长，RowKey过长将会占用大量的存储空间，同时会降低检索效率；其次RowKey应该尽量均匀分布，避免产生热点问题（大量用户访问集中在一个或极少数节点，造成单台节点超出自身承受能力）；另外需要保证RowKey的唯一性。
（3）列簇
        HBase表中的每个列都归属于某个列簇，一个列簇中的所有列成员有着相同的前缀。比如，列anc hor:cnn si.com和anchor:my.look.ca都是列簇anchor的成员。列簇是表的Sch ema的一部分，必须在使用表之前定义列簇，但列却不是必需的，写数据时可以动态加入。一般将经常一起查询的列放在一个列簇中，合理划分列簇将减少查询时加载到缓存的数据，提高查询效率，但也不能有太多的列簇，因为跨列簇访问是非常低效的。
（4）单元格
        HBase中通过Row和Column确定的一个存储单元称为单元格（Cell）。每个单元格都保存着同一份数据的多个版本，不同时间版本的数据按照时间顺序倒序排序，最新时间的数据排在最前面，时间戳是64位的整数，可以由客户端在写入数据时赋值，也可以由RegionServer自动赋值。为了避免数据存在过多版本造成的管理（包括存储和索引）负担，HBase提供了两种数据版本回收方式。一是保存数据的最后n个版本；二是保存最近一段时间内的数据版本，比如最近7天。用户可以针对每个列簇进行设置。

zookeeper安装

##可能使用网页下载会更快，然后再上传到虚拟机中
wget https://dlcdn.apache.org/hbase/2.5.6/hbase-2.5.6-bin.tar.gz
##解压缩
tar -zxvf hbase-2.5.6-bin.tar.gz
##挂载软连接
ln -s hbase-2.5.6/   hbase

hbase-site.xml 是 HBase 运行和对外服务的基本环境配置文件。

vim  hbase/conf/hbase-site.xml

<configuration>
  <!--

    HBase will refuse to run in such an environment. Setting
    `hbase.unsafe.stream.capability.enforce` to `false` overrides this behavior,
    permitting operation. This configuration is for the developer workstation
    only and __should not be used in production!__

    See also https://hbase.apache.org/book.html#standalone_dist
  -->
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.tmp.dir</name>
    <value>./tmp</value>
  </property>
 <property>
    <name>hbase.zookeeper.quorum</name>
    <value>vm02,vm03,vm04</value>
  </property> 
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/hadoop/data/zookeeper</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.clientPort</name>
    <value>2181</value>
  </property>
<property>
    <name>hbase.rootdir</name>
    <value>hdfs://mycluster/hbase</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>true</value>
  </property>
</configuration>

vim RegionServers

[hadoop@vm02 conf]$ vim regionServers

vm02
vm03
vm04

[hadoop@vm02 conf]$ vim backup-masters

vm03

export JAVA_HOME=/jdk/jdk1.8.0_144/
export HBASE_MANAGES_ZK=false

环境变量配置

使用 root用户编辑/etc/profile文件的环境变量。环境变量的命名中${JAVA_HOME}和$JAVA_HOME等同的，由于博主JDK以前设置的问题，以及安装了和Hadoop无关的postgresql 数据库，设置了postgresql的相关变量。这里不做统一标准化处理了。读者了解即可。所有节点均采用以下配置内容

export JAVA_HOME=/jdk/jdk1.8.0_144/
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:/home/postgres/pg/bin:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$PATH
export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export PGDATA=/home/postgres/pg/data


#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/hadoop
export HBASE_HOME=/home/hadoop/hbase
export JAVA_HOME CLASSPATH PATH HADOOP_HOME ZOOKEEPER_HOME HBASE_HOME

#加载环境变量
source /etc/profile

##切换到hadoop用户下
su  - hadoop 
##编辑本用户环境变量添加source /etc/profile
[hadoop@vm02 ~]$ vim .bash_profile 

# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs

PATH=$PATH:$HOME/.local/bin:$HOME/bin
source /etc/profile
export PATH
~

 zkServer.sh start
 zkServer.sh status

##打命令的时候使用tab键会有联想功能，如果没有联想成功，说明环境变量配置有问题
start-all.sh
start-hbase.sh

hbase shell

export $HBASE_OPT ="$HBASE_OPT -Xmx9g -Xms8g -Xmn128M -XX:+UseParNewGC -XX:+UseConMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 --verbose:gc-XLoggc:${HBASE_HOME}/log/gc-hbase.log

#查看对外开放的端口号
netstat -tuln

ss -tulpn

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

简介

HBase的特点有：

HBase的缺点有：

HBase数据模型的核心 概念。

安装 准备

配置文件 设置

h base-si te.xml文件配置

backup-masters文件配置

hbase-env.sh文件配置

环境变量配置

Hbase启动

hbase客户端 访问

附加

hbase的性能变量

端口信息查看

发表回复取消回复

HBase的特点有：

HBase的缺点有：

HBase数据模型的核心概念。

hbase-site.xml文件配置

backup-masters文件配置

hbase-env.sh文件配置

环境变量配置

Hbase启动

hbase客户端访问

附加

hbase的性能变量

端口信息查看

相关文章

发表回复 取消回复

h base-si te.xml文件配置

发表回复取消回复