# Hbase-demo

**Repository Path**: CandyPop/hbase-demo

## Basic Information

- **Project Name**: Hbase-demo
- **Description**: hbase 笔记
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-09-05
- **Last Updated**: 2023-12-13

## Categories & Tags

**Categories**: Uncategorized

**Tags**: hbase

## README

##### HBase 定义

HBase 是一种分布式、可扩展、支持海量数据存储的 NoSql数据库

##### HBase 数据模型

逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构 KV来看，HBase 更像是一个 multi-dimensional map（多维度MAP）。

HBase 的设计理念依据 Google 的 BigTable 论文，论文中对于数据模型的首句介绍。 

Bigtable 是一个**稀疏的（不一定像是关系型那样，每一个格子都要填满）、分布式的、持久的多维排序 **map。 

之后对于映射的解释如下： 

```
该映射由行键、列键和时间戳索引；映射中的每个值都是一个未解释的字节数组。 
```

最终 HBase 关于数据模型和 BigTable 的对应关系如下： 

```
HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏，因此如果用户喜欢，同一表中的行可 以具有疯狂变化的列。
```

最终理解 HBase 数据模型的关键在于**稀疏、分布式、多维、排序**的映射。其中映射 map 指代非关系型数据库的 key-Value 结构。 

##### Hadoop 和 HBase的兼容性

![hadoop和HBase的兼容性](./img/hadoop和HBase的兼容性.png)

##### HBase 的逻辑结果

由于HBase需要存储十亿的行，数百万的列，要考虑到能够存储这些，HBase必须考虑存储这些数据的策略。

```json
{
"row_key1":{
    "personal_info":{
    "name":"zhangsan",
    "city":"北京",
    "phone":"131********"
    },
    "office_info":{
    "tel":"010-1111111",
    "address":"atguigu"
    }
},
"row_key11":{
    "personal_info":{
    "city":"上海",
    "phone":"132********"
    },
    "office_info":{
        "tel":"010-1111111"
        "office_info":{
        "tel":"010-1111111",
        "address":"atguigu"
    },
}
```

以存储以上数据为例子，可以看见并不是所有列都是有数据的，比如对于personal_info而言，两个数据有的拥有name这个，有得则没有，在关系型数据库中，即便这行没有数据，你也需要预留空间给他，但是因为HBase的稀疏性，这块空间可以不被浪费。


![1662562498896](./img/1662562498896.png)

逻辑上，以上json数据会变成这样的结果，我们不同的**某一类**也就是在json上的第一层属性，最外面的那个属性成为列族，可以理解成某一列的集合，其他都是属于他们的成员列。而列族的出现，可以允许想列族中动态的更改列的数量，十分便捷。

RowKey，可以被成为行号，和传统的关系型数据库不同，HBase是个多维度，这里的行号是由多个成分组成的，例如时间戳，列，类别等，且行号是一个排好序的byte数组。和他的有序性相关。同时为了存储如此大量的数据，HBase将表进行了多层次的拆分。

![1662562915575](./img/1662562915575.png)

首先是按行拆分，拆分的那一块叫region，区域。可以放到不同的节点上去。

![1662563030905](./img/1662563030905.png)

接着按照列簇进行拆分，来拆分到不同节点的文件夹中。称呼为store。

**需要额外说明的是，虽然图上会有空格没有数据，看起来像是浪费，但是实际物理存储上，是不会有这块地方的。**

##### 物理结构

![1662563123097](./img/1662563123097.png)

经过逻辑的拆分，就是实际的存储逻辑了，由于Hadoop是不允许修改数据的，但是如果一个数据库无法修改数据也算不上是完善的数据库了。于是HBase对于某条数据进行的设计，之前我们知道HBase是个多维度的映射，他使用行号，列族，列名，时间戳，操作类型，和值等标记某条数据。当每个数据发生了改变，也就意味操作类型也许不是PUT，而是DELETE等，再根据时间戳的先后，来判断这条数据是否已经被修改，或者已经被删除，新的记录将会覆盖老的记录。来打成修改或者删除的效果。

**1.2.3** **数据模型** 

**1）Name Space**  

命名空间，类似于关系型数据库的 database 概念，每个命名空间下有多个表。HBase 两 

个自带的命名空间，分别是 hbase 和 default，hbase 中存放的是 HBase 内置的表，default 表是用户默认使用的命名空间。 

**2）Table**  

类似于关系型数据库的表概念。不同的是，HBase 定义表时只需要声明列族即可，不需 要声明具体的列。因为数据存储时稀疏的，所有往 HBase 写入数据时，字段可以动态、按需 指定。因此，和关系型数据库相比，HBase 能够轻松应对字段变更的场景。 

**3）Row**  

HBase 表中的每行数据都由一个 **RowKey** 和多个 **Column**（列）组成，数据是按照 RowKey 的字典顺序存储的，并且查询数据时只能根据 RowKey 进行检索，无法使用sql，所以 RowKey 的设计十分重要。 

**4）Column**  

HBase 中的每个列都由 Column Family(列族)和 Column Qualifier（列限定符）进行限 定，例如 info：name，info：age。建表时，只需指明列族，而列限定符无需预先定义。 

**5）Time Stamp**  

用于标识数据的不同版本（version），每条数据写入时，系统会自动为其加上该字段， 其值为写入 HBase 的时间。 

**6）Cell** 

由{rowkey, column Family：column Qualifier, timestamp} 唯一确定的单元。cell 中的数 据全部是字节码形式存贮。之前有说过一些HBase的物理存储结果，说到了底层存储的是StoreFile文件。Cell其实描述的就是StoreFile的。一个逻辑上的单元格数据，其实可以有多个Cell，因为可以多条操作数据，这也不难理解。

##### HBase的安装

首先，我们需要预先启动Hadoop和Zookeeper。

然后我们在三台机器上分别将HBase的包分别放到指定位置，解压。

修改环境变量，添加以下值

```sh
#HBASE_HOME
# 改成对应的安装路径
export HBASE_HOME=/opt/module/hbase
export PATH=$PATH:$HBASE_HOME/bin

# 记得使用 source /etc/profile 让资源生效
```

接着，进入HBase的conf目录下，开始修改配置文件。

```sh
# hbase-env.sh
# Tell HBase whether it should manage it's own instance of ZooKeeper or not.
# 取消注解，并写修改为false，不需要HBase自己维护zk，而是用我们自己安装的zk
export HBASE_MANAGES_ZK=false
```

```xml
<!--hbase-site.xml-->
<property>
    <name>hbase.cluster.distributed</name>
    <!-- 修改为true，也就是启动分布式 -->
    <value>false</value>
  </property>
  <!-- 
	注释掉
	<property>
    <name>hbase.tmp.dir</name>
    <value>./tmp</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value> -->
	<!--添加如下-->
	<property>
     <name>hbase.zookeeper.quorum</name>
     <value>hadoop102,hadoop103,hadoop104</value>
     <description>The directory shared by RegionServers.
 	</description>
 </property>
<!-- <property>-->
<!-- <name>hbase.zookeeper.property.dataDir</name>-->
<!-- <value>/export/zookeeper</value>-->
<!-- <description> 记得修改 ZK 的配置文件 -->
<!-- ZK 的信息不能保存到临时文件夹-->
<!-- </description>-->
<!-- </property>-->
 <property>
     <name>hbase.rootdir</name>
     <value>hdfs://hadoop102:8020/hbase</value>
     <description>The directory shared by RegionServers.
     </description>
</property>
```

配置服务器列表

```sh
# vim regionservers
hadoop102
hadoop103
hadoop104
```

修改hbase和hadoop的日志包兼容性问题。解决方法也就是改个名就行。

```
mv /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar.bak
```

##### HBase的启动

1）单点启动 

```sh
$ bin/hbase-daemon.sh start master 
$ bin/hbase-daemon.sh start regionserver 
```

2）群启 

```sh
$ bin/start-hbase.sh 
```

3）对应的停止服务 

```sh
$ bin/stop-hbase.sh
```

启动的时候可能会遇到找不到`JAVA_HOME`的问题，这个可以通过修改`hbase-env.sh`,打开`JAVA_HOME`的注解，然后写入正确的`JAVA_HOME`安装地址。

![1662621247419](./img/1662621247419.png)

启动完成。

hadoop102

![1662621366765](./img/1662621366765.png)

hadoop103

![1662621390464](./img/1662621390464.png)

hadoop104

![1662621410944](./img/1662621410944.png)

访问HBase的页面

```
http://hadoop102:16010
```

![1662621494504](./img/1662621494504.png)

Hadoop中也已经创建了他的文件夹

![1662621535778](./img/1662621535778.png)

##### HBase的高可用

在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期，均衡 RegionServer 的负载， 如果 HMaster 挂掉了，那么整个 HBase 集群将陷入不健康的状态，并且此时的工作状态并不 会维持太久。所以 HBase 支持对 HMaster 的高可用配置。 

* 关闭 **HBase** **集群（如果没有开启则跳过此步）** 

```
$ bin/stop-hbase.sh 
```

* 在 **conf** **目录下创建** **backup-masters** **文件** 

```
$ touch conf/backup-masters 
```

* 在 **backup-masters** **文件中配置高可用** **HMaster** **节点** ，你可以随便选择一个节点，这里选择了hadoop103

```
$ echo hadoop103 > conf/backup-masters 
```

* 重启 hbase,打开页面测试查看

![1662966931117](./img/1662966931117.png)

##### HBase 的操作命令

进入客户端进行操作

```
 bin/hbase shell
```

![1662967281341](./img/1662967281341.png)

输入help命令，可以看到比较重要的两个部分，一个ddl，一个dml。输入命令的时候，请不要增加分号，如果不小心输入了分号，完成了回车，可以输入两个单引号，完成退出。

**1）创建命名空间**  

使用特定的 help 语法能够查看命令如何使用。 

```
hbase:002:0> help 'create_namespace' 
```

**2）创建命名空间 bigdata**  

```
hbase:003:0> create_namespace 'bigdata' 
```

**3）查看所有的命名空间**  

```
hbase:004:0> list_namespace 
```

**2.2.3 DDL** 

**1）创建表** 

在 bigdata 命名空间中创建表格 student，两个列族。info 列族数据维护的版本数为 5 个， 

如果不写默认版本数为 1。 

```
hbase:005:0> create 'bigdata:student', {NAME => 'info', VERSIONS =>  

5}, {NAME => 'msg'} 
```

如果创建表格只有一个列族，没有列族属性，可以简写。 如果不写命名空间，使用默认的命名空间 default。 

```
hbase:009:0> create 'student1','info' 
```

![1662968091159](./img/1662968091159.png)

我们之前说过版本的问题，这是一个版本。前面说每个单元格都会以自己的时间戳作为不同时刻的数据，一个单元格可能会维护多个不同的数据，这个是由版本来定，这里定义为1个版本，则意味着，这个单元格无论何时何地都只会有一条数据，他会将之前老的数据删除，你可以修改，则意味着他能同时维护多条该单元格的数据。

**修改**

```
alter 'student',{NAME=>'info',VERSIONS=>3}
```

![1662968545179](./img/1662968545179.png)

**删除**

但是你删除之前，先要将他disable，才能删除，因为对于hbase来说，每个表都是一个服务，你不能在他上线阶段的时候将他删除，必须将他下线才可以操作。

![1662968679429](./img/1662968679429.png)

```
disable 'student'
drop student
```

![1662968748215](./img/1662968748215.png)

**命名空间**

![1662969174199](./img/1662969174199.png)

```
create_namespace 'bigdata'
list_namepsace
create 'bigdata:stu','info'
```

如果你想要删除，也是无法直接删除的，你必须将该空间下的所有表都下线删除欧，才可以将这个命名空间删除。

![1662969374267](./img/1662969374267.png)

##### HBase的数据

![1662969675291](./img/1662969675291.png)

```
put [表空间表(默认default):表名],[rowkey],[列簇:列名],[值]
```

**查询**

![1662970083840](./img/1662970083840.png)

如果不明白他的使用案例，可以直接输入你想查询的命令，然后直接回车会有示例

**get 与 scan**

从本身的功能上来看，get与scan都具有查询的功能。如果我们添加多个数据的话，再用查询方法查询的时候，会发现很多条数据

![1662970687455](./img/1662970687455.png)

但是需要注意的是，虽然这里显示了很多数据，但是其实也只要4条数据，因为隶属于同一个rowkey的数据，是属于同一条数据，而同一个列簇下，又有很多的列，所以属于一个rowkey的数据，其实也是我们关系型数据中的一行数据。

接着是范围查找，

**2）读取数据**  

读取数据的方法有两个：get 和 scan。 

get 最大范围是一行数据，也可以进行列的过滤，读取数据的结果为多行 cell。 

```
hbase:022:0> get 'bigdata:student','1001' 

hbase:023:0> get 'bigdata:student','1001' , {COLUMN => 'info:name'} 
```

也可以修改读取 cell 的版本数，默认读取一个。最多能够读取当前列族设置的维护版本 

数。 

```
hbase:024:0>get 'bigdata:student','1001' , {COLUMN => 'info:name',  

VERSIONS => 6} 
```

scan 是扫描数据，能够读取多行数据，不建议扫描过多的数据，推荐使用 startRow 和 

stopRow 来控制读取的数据，默认范围**左闭右开**。 

```
hbase:025:0> scan 'bigdata:student',{STARTROW => '1001',STOPROW =>  

'1002'} 
```

**3）数据的修改和删除**

HBase中，时间戳是很重要的概念，修改数据的时候。

你依旧可以使用put命令，这样，同一个列簇下的列名就会有两条数据，但是由于Hbase只会在get或者scan的时候，展示最大的时间戳，所以你总是可以看到你添加的最新的数据，这就起到了修改的目的。

同时，put命令可以在值的后面添加自定义的时间戳，如果你添加了比最新数据更大的时间戳，那么就会替换到最新的数据，展示那条你刚刚添加的，但是你添加了比那小的数据，就不会显示，但是你可以使用

```
scan '[表名]',{RAW=TRUE,VERSION=10}
```

来查看这个表的相关历史，最大10个时间戳。

接着是删除，HBase中提供了一系列删除的手段。

删除列。

```
delete [表名],[rowkey],[列簇:列名]
```

删除列簇

```
delete [表名],[rowkey],[列簇]
```

删除rowkey

```
deleteall [表名],[rowkey]
```

清空表

```
truncate [表名]
```

##### HBase API

```xml
<dependencies>
 <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-client</artifactId>
      <version>2.4.11</version>
    </dependency>
</dependencies>
```