简介
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase的特点有:
稀疏:HBase的列理论上是允许无限扩展的,对于成百万的列来说,会有大量的空值,如果使用null填充的策略,势必会造成大量空间的浪费,因此,稀疏性是HBase无限扩展的一个重要条件。
排序:构成HBase的kv在同一文件中都是有序的,首先是rowkey(行键)升序排序,rowkey相同则column key(列族和修饰符)升序排序,rowkey、column key相同则timestamp(时间戳)降序排序。
分布式:构成HBase的map都不在某台机器上,而是分布在整个集群中。
HBase的缺点有:
HBase不支持条件查询,只支持按照Row key来查询。这意味着用户需要预先知道查询条件,否则无法进行查询。
HBase暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉。这可能会对系统稳定性造成一定影响。
HBase的数据类型只有简单的字符类型,所有的类型都是交由用户自己处理,它只保存字符串。相比之下,关系数据库有丰富的类型和存储方式。
HBase只有很简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系,而传统数据库通常有各式各样的函数和连接操作。
HBase数据模型的核心概念。
(1)表
HBase是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase的表也是由行和列组成,但HBase同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(Column Family),这种组织形式主要基于存取性能。
(2)行键
RowKey既是HBase表的行键,也是HBase表的主键。HBase表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的RowKey来提高查询性能。首先RowKey被冗余存储,所以长度不宜过长,RowKey过长将会占用大量的存储空间,同时会降低检索效率;其次RowKey应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,造成单台节点超出自身承受能力);另外需要保证RowKey的唯一性。
(3)列簇
HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:cnnsi.com和anchor:my.look.ca都是列簇anchor的成员。列簇是表的Schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据时可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。
(4)单元格
HBase中通过Row和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间戳是64位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。为了避免数据存在过多版本造成的管理(包括存储和索引)负担,HBase提供了两种数据版本回收方式。一是保存数据的最后n个版本;二是保存最近一段时间内的数据版本,比如最近7天。用户可以针对每个列簇进行设置。