网站首页 > 博客文章 正文
文档编写目的
因为CDH5中的Parquet版本为1.5,而CDP7中的Parquet版本为1.10,我们在从CDH5升级到CDP7后,无论是原地升级还是迁移升级,都可能会碰到一个问题,以前在CDH5中使用Hive/Impala生成的低版本Parquet文件还能继续在CDP7中使用吗。本文主要描述将CDH5中的Parquet文件传输到CDP7环境中,使用CDP7中的Hive,Impala,Spark确认能否继续访问这些文件。
- 测试环境
1.集群环境:CDH5.16.2/CDP7.1.1
2.系统环境:Redhat7.6
验证步骤
2.1在CDH5中生成Parquet1.5文件
2.1.1集群版本验证
查看集群Hadoop版本
hadoop version
打开CM页面点击支持点击关于
2.1.2Impala建表测试
打开Hue选择 Impala,创建Parquet表
create external table test1.hive_data_parquet(id string,collectiondate string,collectionaddress string,textch string)STORED AS parquetlocation '/tmp/hivedata_parquet';
执行数据插入
INSERT into test1.hive_data_parquet VALUES ('1','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('2','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('3','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('4','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('5','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('6','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('7','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('8','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('9','0814','深圳','cloudera');
INSERT into test1.hive_data_parquet VALUES ('10','0814','深圳','cloudera');
查询数据是否插入成功
SELECT * FROM test1.hive_data_parquet;
2.1.3使用CDH5中的Spark SQL读取Parquet表
在客户端访问spark-shell,并输入查询语句。
spark2-shell
spark.sql("SELECT * FROM test1.hive_data_parquet").show
查询成功
2.2将Parquet表从CDH5迁移到CDP
2.2.1集群数据迁移
正常采用hadoop distcp命令,这里由于都开启了kerberos,需要配置互信,过程太长,采用hdfs get put scp命令代替
源端执行get命令
hdfs dfs -get /tmp/hivedata_parquet /tmp/
ll /tmp/hivedata_parquet/
scp -r /tmp/hivedata_parquet root@192.168.0.156:/tmp/
目标端验证传输成功
ll /tmp/hivedata_parquet/
hdfs dfs -put/tmp/hivedata_parquet /tmp/hdfs dfs -ls/tmp/hivedata_parquet
2.2.2 在CDP中建立Impala表
create external table test1.hive_data_parquet(
id string,
collectiondate string,
collectionaddress string,
textch string
)
STORED AS parquet
location '/tmp/hivedata_parquet';
2.3 在CDP7中进行测试
2.3.1 集群版本验证
2.3.2 Impala查询测试
SELECT * from test1.hive_data_parquet;
2.3.3 在CDP7中使用Spark SQL读取Parquet1.5的表
spark-shellspark.sql("SELECT * FROM test1.hive_data_parquet").show
查询成功
验证结果
如果将CDH5升级到CDP7,旧集群中的老版本的Parquet1.5文件可以在CDP7中直接被访问,Impala,Hive和Spark均可以访问。
猜你喜欢
- 2024-11-08 写Parquet的同时提高Spark作业性能300%
- 2024-11-08 0608-如何将ORC格式且使用了DATE类型的Hive表转为Parquet(续)
- 2024-11-08 大数据正当时,理解这几个术语很重要
- 2024-11-08 苹果IOS游戏分享:「帕奎特-PARQUET」-解锁完整章节,二次元恋爱
- 2024-11-08 什么是魅力值拉满的男士香调?(男士香料)
- 2024-11-08 0607-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
- 2024-11-08 数据工程101:揭开Hadoop数据格式的神秘面纱:Avro,ORC和Parquet
- 2024-11-08 为什么数据格式很重要?Parquet vs Protobuf vs JSON
- 2024-11-08 四十一、SparkSQL读取parquet数据源(必须要弄懂)
- 2024-11-08 Apache Parquet:在Google,Azure和Amazon云上使用开源列式数据
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)