hive是建设在Hadoop之上，Hive包括如下组件：CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、MetaStore和Driver(Complier、Optimizer和Executor)。

1) Driver组件：包括Complier、Optimizer和Executor，它的作用是将我们写的HiveQL（类SQL）语句进行解析、编译优化，生成执行计划，然后调用底层的MapReduce计算框架。

2) Metastore组件：元数据服务组件存储hive的元数据，hive的元数据存储在关系数据库里，hive支持的关系数据库有derby、mysql。Hive还支持把metastore服务安装到远程的服务器集群里，从而解耦hive服务和metastore服务。

3) Thrift服务：thrift是facebook开发的一个软件框架，它用来进行可扩展且跨语言的服务的开发，hive集成了该服务，能让不同的编程语言调用hive的接口。

4) CLI：command line interface，命令行接口。

5) Thrift客户端：hive架构的许多客户端接口是建立在thrift客户端之上，包括JDBC和ODBC接口。

6) WEBGUI：hive客户端提供了一种通过网页的方式访问hive所提供的服务。

用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，公司内可通过堡垒机连接ssh hdp_lbg_ectech@10.126.101.7，直接输入hive，就可连接到HiveServer。

Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分：metastore服务和后台数据的存储。后台数据存储的介质就是关系数据库，例如hive默认的嵌入式磁盘数据库derby，还有mysql数据库。Metastore服务是建立在后台数据存储介质之上，并且可以和hive服务进行交互的服务组件，默认情况下，metastore服务和hive服务是安装在一起的，运行在同一个进程当中。我也可以把metastore服务从hive服务里剥离出来，metastore独立安装在一个集群里，hive远程调用metastore服务，这样我们可以把元数据这一层放到防火墙之后，客户端访问hive服务，就可以连接到元数据这一层，从而提供了更好的管理性和安全保障。使用远程的metastore服务，可以让metastore服务和hive服务运行在不同的进程里，这样也保证了hive的稳定性，提升了hive服务的效率。

对于数据存储，Hive没有专门的数据存储格式，可以非常自由的组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。Hive中所有的数据都存储在HDFS中，存储结构主要包括数据库、文件、表和视图。Hive中包含以下数据模型：Table内部表，External Table外部表，Partition分区，Bucket桶。Hive默认可以直接加载文本文件，还支持sequence file 、RCFile。

Hive的数据模型介绍如下：

1) Hive数据库

类似传统数据库的DataBase，例如 hive >create database test_database;

2) 内部表

Hive的内部表与数据库中的表在概念上是类似。每一个Table在Hive中都有一个相应的目录存储数据。例如一个表hive_test，它在HDFS中的路径为/home/hdp_lbg_ectech/warehouse/hdp_lbg_ectech_bdw.db/hive_test，其中/home/hdp_lbg_ectech/warehouse是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录，所有的Table数据（不包括外部表）都保存在这个目录中。删除表时，元数据与数据都会被删除。

建表语句示例：

CREATE EXTERNAL TABLE hdp_lbg_ectech_bdw.hive_test

(`userid` string COMMENT'')

ROW FORMAT DELIMITED FIELDS TERMINATED BY'\001';

load data inpath ‘/home/hdp_lbg_ectech/resultdata/test.txt’overwrite into table hive_test;

3) 外部表

外部表指向已经在HDFS中存在的数据，可以创建分区。它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异。内部表在加载数据的过程中，实际数据会被移动到数据仓库目录中。删除表时，表中的数据和元数据将会被同时删除。而外部表只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在LOCATION后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个外部表时，仅删除该表的元数据，而实际外部目录的数据不会被删除，推荐使用这种模式。

4) 分区

Partition相当于数据库中的列的索引，但是Hive组织方式和数据库中的很不相同。在Hive中，表中的一个分区对应于表下的一个目录，所有的分区数据都存储在对应的目录中。

一般是按时间、地区、类目来分区，便于局部查询，避免扫描整个数据源。

5) 桶

Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。例如将userid列分散至32个bucket，首先对userid列的值计算hash，对应hash值为0的HDFS目录为/home/hdp_lbg_ectech/resultdata/part-00000；hash值为20的HDFS目录为/home/hdp_lbg_ectech/resultdata/part-00020。

6) Hive的视图

视图与传统数据库的视图类似。目前只有逻辑视图，没有物化视图；视图只能查询，不能Load/Insert/Update/Delete数据；视图在创建时候，只是保存了一份元数据，当查询视图的时候，才开始执行视图对应的那些子查询；

如何用4个月学会Hadoop？

准备学Hadoop的同学可以找套视频来看，当初给同事学Hadoop给他找了几本书基本看不懂。

后来他别人给他一套视频跟着学，4个月就学会了，我看了一下那个视频从0基础入门Hadoop，到中各个组件的讲解都很详细，最重要是有很多真实的案例。

把这个方法告诉大家，希望你们能少走弯路。

ganshiyu1026

需要视频的童鞋可以力口上面这个鹏友圈。

网站首页 > 博客文章正文

Hive是如何在Hadoop集群中工作的?

Hive的数据模型介绍如下：

如何用4个月学会Hadoop？

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

Hive是如何在Hadoop集群中工作的?

Hive的数据模型介绍如下：

如何用4个月学会Hadoop？

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: