# Hbase-demo **Repository Path**: CandyPop/hbase-demo ## Basic Information - **Project Name**: Hbase-demo - **Description**: hbase 笔记 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-09-05 - **Last Updated**: 2023-12-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: hbase ## README ##### HBase 定义 HBase 是一种分布式、可扩展、支持海量数据存储的 NoSql数据库 ##### HBase 数据模型 逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构 KV来看,HBase 更像是一个 multi-dimensional map(多维度MAP)。 HBase 的设计理念依据 Google 的 BigTable 论文,论文中对于数据模型的首句介绍。 Bigtable 是一个**稀疏的(不一定像是关系型那样,每一个格子都要填满)、分布式的、持久的多维排序 **map。 之后对于映射的解释如下: ``` 该映射由行键、列键和时间戳索引;映射中的每个值都是一个未解释的字节数组。 ``` 最终 HBase 关于数据模型和 BigTable 的对应关系如下: ``` HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可 以具有疯狂变化的列。 ``` 最终理解 HBase 数据模型的关键在于**稀疏、分布式、多维、排序**的映射。其中映射 map 指代非关系型数据库的 key-Value 结构。 ##### Hadoop 和 HBase的兼容性 ![hadoop和HBase的兼容性](./img/hadoop和HBase的兼容性.png) ##### HBase 的逻辑结果 由于HBase需要存储十亿的行,数百万的列,要考虑到能够存储这些,HBase必须考虑存储这些数据的策略。 ```json { "row_key1":{ "personal_info":{ "name":"zhangsan", "city":"北京", "phone":"131********" }, "office_info":{ "tel":"010-1111111", "address":"atguigu" } }, "row_key11":{ "personal_info":{ "city":"上海", "phone":"132********" }, "office_info":{ "tel":"010-1111111" "office_info":{ "tel":"010-1111111", "address":"atguigu" }, } ``` 以存储以上数据为例子,可以看见并不是所有列都是有数据的,比如对于personal_info而言,两个数据有的拥有name这个,有得则没有,在关系型数据库中,即便这行没有数据,你也需要预留空间给他,但是因为HBase的稀疏性,这块空间可以不被浪费。 ![1662562498896](./img/1662562498896.png) 逻辑上,以上json数据会变成这样的结果,我们不同的**某一类**也就是在json上的第一层属性,最外面的那个属性成为列族,可以理解成某一列的集合,其他都是属于他们的成员列。而列族的出现,可以允许想列族中动态的更改列的数量,十分便捷。 RowKey,可以被成为行号,和传统的关系型数据库不同,HBase是个多维度,这里的行号是由多个成分组成的,例如时间戳,列,类别等,且行号是一个排好序的byte数组。和他的有序性相关。同时为了存储如此大量的数据,HBase将表进行了多层次的拆分。 ![1662562915575](./img/1662562915575.png) 首先是按行拆分,拆分的那一块叫region,区域。可以放到不同的节点上去。 ![1662563030905](./img/1662563030905.png) 接着按照列簇进行拆分,来拆分到不同节点的文件夹中。称呼为store。 **需要额外说明的是,虽然图上会有空格没有数据,看起来像是浪费,但是实际物理存储上,是不会有这块地方的。** ##### 物理结构 ![1662563123097](./img/1662563123097.png) 经过逻辑的拆分,就是实际的存储逻辑了,由于Hadoop是不允许修改数据的,但是如果一个数据库无法修改数据也算不上是完善的数据库了。于是HBase对于某条数据进行的设计,之前我们知道HBase是个多维度的映射,他使用行号,列族,列名,时间戳,操作类型,和值等标记某条数据。当每个数据发生了改变,也就意味操作类型也许不是PUT,而是DELETE等,再根据时间戳的先后,来判断这条数据是否已经被修改,或者已经被删除,新的记录将会覆盖老的记录。来打成修改或者删除的效果。 **1.2.3** **数据模型** **1)Name Space** 命名空间,类似于关系型数据库的 database 概念,每个命名空间下有多个表。HBase 两 个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。 **2)Table** 类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需 要声明具体的列。因为数据存储时稀疏的,所有往 HBase 写入数据时,字段可以动态、按需 指定。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。 **3)Row** HBase 表中的每行数据都由一个 **RowKey** 和多个 **Column**(列)组成,数据是按照 RowKey 的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,无法使用sql,所以 RowKey 的设计十分重要。 **4)Column** HBase 中的每个列都由 Column Family(列族)和 Column Qualifier(列限定符)进行限 定,例如 info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。 **5)Time Stamp** 用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段, 其值为写入 HBase 的时间。 **6)Cell** 由{rowkey, column Family:column Qualifier, timestamp} 唯一确定的单元。cell 中的数 据全部是字节码形式存贮。之前有说过一些HBase的物理存储结果,说到了底层存储的是StoreFile文件。Cell其实描述的就是StoreFile的。一个逻辑上的单元格数据,其实可以有多个Cell,因为可以多条操作数据,这也不难理解。 ##### HBase的安装 首先,我们需要预先启动Hadoop和Zookeeper。 然后我们在三台机器上分别将HBase的包分别放到指定位置,解压。 修改环境变量,添加以下值 ```sh #HBASE_HOME # 改成对应的安装路径 export HBASE_HOME=/opt/module/hbase export PATH=$PATH:$HBASE_HOME/bin # 记得使用 source /etc/profile 让资源生效 ``` 接着,进入HBase的conf目录下,开始修改配置文件。 ```sh # hbase-env.sh # Tell HBase whether it should manage it's own instance of ZooKeeper or not. # 取消注解,并写修改为false,不需要HBase自己维护zk,而是用我们自己安装的zk export HBASE_MANAGES_ZK=false ``` ```xml hbase.cluster.distributed false hbase.zookeeper.quorum hadoop102,hadoop103,hadoop104 The directory shared by RegionServers. hbase.rootdir hdfs://hadoop102:8020/hbase The directory shared by RegionServers. ``` 配置服务器列表 ```sh # vim regionservers hadoop102 hadoop103 hadoop104 ``` 修改hbase和hadoop的日志包兼容性问题。解决方法也就是改个名就行。 ``` mv /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar.bak ``` ##### HBase的启动 1)单点启动 ```sh $ bin/hbase-daemon.sh start master $ bin/hbase-daemon.sh start regionserver ``` 2)群启 ```sh $ bin/start-hbase.sh ``` 3)对应的停止服务 ```sh $ bin/stop-hbase.sh ``` 启动的时候可能会遇到找不到`JAVA_HOME`的问题,这个可以通过修改`hbase-env.sh`,打开`JAVA_HOME`的注解,然后写入正确的`JAVA_HOME`安装地址。 ![1662621247419](./img/1662621247419.png) 启动完成。 hadoop102 ![1662621366765](./img/1662621366765.png) hadoop103 ![1662621390464](./img/1662621390464.png) hadoop104 ![1662621410944](./img/1662621410944.png) 访问HBase的页面 ``` http://hadoop102:16010 ``` ![1662621494504](./img/1662621494504.png) Hadoop中也已经创建了他的文件夹 ![1662621535778](./img/1662621535778.png) ##### HBase的高可用 在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载, 如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不 会维持太久。所以 HBase 支持对 HMaster 的高可用配置。 * 关闭 **HBase** **集群(如果没有开启则跳过此步)** ``` $ bin/stop-hbase.sh ``` * 在 **conf** **目录下创建** **backup-masters** **文件** ``` $ touch conf/backup-masters ``` * 在 **backup-masters** **文件中配置高可用** **HMaster** **节点** ,你可以随便选择一个节点,这里选择了hadoop103 ``` $ echo hadoop103 > conf/backup-masters ``` * 重启 hbase,打开页面测试查看 ![1662966931117](./img/1662966931117.png) ##### HBase 的操作命令 进入客户端进行操作 ``` bin/hbase shell ``` ![1662967281341](./img/1662967281341.png) 输入help命令,可以看到比较重要的两个部分,一个ddl,一个dml。输入命令的时候,请不要增加分号,如果不小心输入了分号,完成了回车,可以输入两个单引号,完成退出。 **1)创建命名空间** 使用特定的 help 语法能够查看命令如何使用。 ``` hbase:002:0> help 'create_namespace' ``` **2)创建命名空间 bigdata** ``` hbase:003:0> create_namespace 'bigdata' ``` **3)查看所有的命名空间** ``` hbase:004:0> list_namespace ``` **2.2.3 DDL** **1)创建表** 在 bigdata 命名空间中创建表格 student,两个列族。info 列族数据维护的版本数为 5 个, 如果不写默认版本数为 1。 ``` hbase:005:0> create 'bigdata:student', {NAME => 'info', VERSIONS => 5}, {NAME => 'msg'} ``` 如果创建表格只有一个列族,没有列族属性,可以简写。 如果不写命名空间,使用默认的命名空间 default。 ``` hbase:009:0> create 'student1','info' ``` ![1662968091159](./img/1662968091159.png) 我们之前说过版本的问题,这是一个版本。前面说每个单元格都会以自己的时间戳作为不同时刻的数据,一个单元格可能会维护多个不同的数据,这个是由版本来定,这里定义为1个版本,则意味着,这个单元格无论何时何地都只会有一条数据,他会将之前老的数据删除,你可以修改,则意味着他能同时维护多条该单元格的数据。 **修改** ``` alter 'student',{NAME=>'info',VERSIONS=>3} ``` ![1662968545179](./img/1662968545179.png) **删除** 但是你删除之前,先要将他disable,才能删除,因为对于hbase来说,每个表都是一个服务,你不能在他上线阶段的时候将他删除,必须将他下线才可以操作。 ![1662968679429](./img/1662968679429.png) ``` disable 'student' drop student ``` ![1662968748215](./img/1662968748215.png) **命名空间** ![1662969174199](./img/1662969174199.png) ``` create_namespace 'bigdata' list_namepsace create 'bigdata:stu','info' ``` 如果你想要删除,也是无法直接删除的,你必须将该空间下的所有表都下线删除欧,才可以将这个命名空间删除。 ![1662969374267](./img/1662969374267.png) ##### HBase的数据 ![1662969675291](./img/1662969675291.png) ``` put [表空间表(默认default):表名],[rowkey],[列簇:列名],[值] ``` **查询** ![1662970083840](./img/1662970083840.png) 如果不明白他的使用案例,可以直接输入你想查询的命令,然后直接回车会有示例 **get 与 scan** 从本身的功能上来看,get与scan都具有查询的功能。如果我们添加多个数据的话,再用查询方法查询的时候,会发现很多条数据 ![1662970687455](./img/1662970687455.png) 但是需要注意的是,虽然这里显示了很多数据,但是其实也只要4条数据,因为隶属于同一个rowkey的数据,是属于同一条数据,而同一个列簇下,又有很多的列,所以属于一个rowkey的数据,其实也是我们关系型数据中的一行数据。 接着是范围查找, **2)读取数据** 读取数据的方法有两个:get 和 scan。 get 最大范围是一行数据,也可以进行列的过滤,读取数据的结果为多行 cell。 ``` hbase:022:0> get 'bigdata:student','1001' hbase:023:0> get 'bigdata:student','1001' , {COLUMN => 'info:name'} ``` 也可以修改读取 cell 的版本数,默认读取一个。最多能够读取当前列族设置的维护版本 数。 ``` hbase:024:0>get 'bigdata:student','1001' , {COLUMN => 'info:name', VERSIONS => 6} ``` scan 是扫描数据,能够读取多行数据,不建议扫描过多的数据,推荐使用 startRow 和 stopRow 来控制读取的数据,默认范围**左闭右开**。 ``` hbase:025:0> scan 'bigdata:student',{STARTROW => '1001',STOPROW => '1002'} ``` **3)数据的修改和删除** HBase中,时间戳是很重要的概念,修改数据的时候。 你依旧可以使用put命令,这样,同一个列簇下的列名就会有两条数据,但是由于Hbase只会在get或者scan的时候,展示最大的时间戳,所以你总是可以看到你添加的最新的数据,这就起到了修改的目的。 同时,put命令可以在值的后面添加自定义的时间戳,如果你添加了比最新数据更大的时间戳,那么就会替换到最新的数据,展示那条你刚刚添加的,但是你添加了比那小的数据,就不会显示,但是你可以使用 ``` scan '[表名]',{RAW=TRUE,VERSION=10} ``` 来查看这个表的相关历史,最大10个时间戳。 接着是删除,HBase中提供了一系列删除的手段。 删除列。 ``` delete [表名],[rowkey],[列簇:列名] ``` 删除列簇 ``` delete [表名],[rowkey],[列簇] ``` 删除rowkey ``` deleteall [表名],[rowkey] ``` 清空表 ``` truncate [表名] ``` ##### HBase API ```xml org.apache.hbase hbase-client 2.4.11 ```