网站首页 > 博客文章 正文
背景
大数据的 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段,需要对 json 串数据进行转换“拍平”处理。
亲测!超好用 Hive 内置的 json 解析函数 一文中详细介绍过 get_json_object 和 json_tuple 函数如何对 json 串进行有效解析,但美中不足的是这两个函数都无法解析 json 数组,只能解析单个 json 串。
这里将会介绍 Hive 中常用于 json 数组的解析函数及详细使用方法。
json数组解析:需求1
数据准备
例如:Hive中有一张 test_json 表,表中 json_data 字段的内容如下:
基于以上的 json_data 数据,现需要将以上 json 串数据解析为如下结构数据:
在进行解析之前,先来了解下面两个函数的使用方法。
函数运用
1. explode函数
语法
explode(Array|Map)
说明
explode()函数接收一个 array 或者 map 类型的数据作为输入,然后将 array 或 map 里面的元素按照每行的形式输出。
即将 Hive 一列中复杂的 array 或者 map 结构拆分成多行显示,也被称为列转行函数。
举例
array测试sql语句:
select explode(array('user_id','name','age'));
执行结果:
map测试sql语句:
select explode(map('user_id',1,'name','rocky','age',18));
执行结果:
2. regexp_replace函数
语法
regexp_replace(str A, str B, str C)
说明
语法含义:将字符串 A 中的符合正则表达式 B 的部分替换为 C。
注意:当字符串 A 中有一些特殊字符时,在正则表达式 B 中要使用转义字符。
举例
sql语句:
select regexp_replace('hello world!', '\\ |\\!', '');
执行结果:
3. 具体函数运用
了解 explode 函数与 regexp_replace 函数的使用规则后,现在来完成上面数据准备中提出的解析需求。
第一步解析:json数组拆分成多行
sql语句:
SELECT explode(split(
regexp_replace(
regexp_replace(
'[
{"user_id":"1","name":"小琳","age":16},
{"user_id":"2","name":"小刘","age":18},
{"user_id":"3","name":"小明","age":20}
]',
'\\[|\\]' , ''), 将json数组两边的中括号去掉
'\\}\\,\\{' , '\\}\\;\\{'), 将json数组元素之间的逗号换成分号
'\\;') 以分号作为分隔符(split函数以分号作为分隔)
);
执行结果:
第二步解析:json数组key转列字段
sql语句:
select json_tuple(json, 'user_id', 'name', 'age')
from (select explode(split(
regexp_replace(
regexp_replace(
'[
{"user_id":"1","name":"小琳","age":16},
{"user_id":"2","name":"小刘","age":18},
{"user_id":"3","name":"小明","age":20}
]',
'\\[|\\]' , ''),
'\\}\\,\\{' , '\\}\\;\\{'),
'\\;')
)as json) tmp;
执行结果:
json数组解析:需求2
数据准备
例如:
Hive中有一张 data_json 表,表中 goods_id 和 str_data 字段的内容如下:
基于以上的 goods_id 和 str_data 数据,现需要将以上 json 串数据解析为如下结构数据:
在进行解析之前,先来了解下面两个函数的使用方法。
函数运用
1. lateral view函数
说明
lateral view 用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
lateral view 首先为原始表的每行调用 UDTF,UDTF 会把一行拆分成一行或者多行,lateral view 在把结果组合,产生一个支持别名表的虚拟表。
举例
例如:Hive 中有一张 page_ads 表,表数据结构如下:
page_name 代表页面名称,ads_id 代表投放广告的所属 id,多个 id之间使用逗号分隔。
需求:统计所有广告 id 在所有页面中出现的次数。
第一步解析:拆分广告id
拆分sql语句:
SELECT page_name, ads_id
FROM page_ads LATERAL VIEW explode(ads_id) adTable AS adid;
拆分结果:
第二步解析:聚合统计
聚合统计sql语句:
SELECT adid, count(1)
FROM page_ads LATERAL VIEW explode(ads_id) adTable AS adid
GROUP BY adid;
统计结果:
2. 具体函数运用
解析 data_json 表的sql语句如下:
select goods_id,get_json_object(sale_json,'$.sold') as sold
from data_json
LATERAL VIEW explode(split(goods_id,','))goods as goods_id
LATERAL VIEW explode(split(
regexp_replace(
regexp_replace(json_str , '\\[|\\]',''),'\\}\\,\\{','\\}\\;\\{'),'\\;')) sales as sale_json;
注意:
上述语句是 3*3 笛卡尔积的结果,所以此方式适用于数据量不是很大的情况。
执行结果如下:
猜你喜欢
- 2024-10-04 TP5 where数组查询(模糊查询--多个查询条件)
- 2024-10-04 sql基础(六)(sql基本知识点)
- 2024-10-04 必知的php数组函数(必知的php数组函数有哪些)
- 2024-10-04 C# 数据操作系列 - 16 SqlSugar 完结篇(最后的精华)
- 2024-10-04 会SQL语句,就能快速开放你的数据接口API
- 2024-10-04 VBA数组与字典解决方案第46讲:进行数据的模糊分类汇总
- 2024-10-04 sqlite3 支持JSON(Sqlite3 支持网络访问)
- 2024-10-04 HeidiSQL 免费的可视化数据库管理工具
- 2024-10-04 实例讲解MyBatisPlus自定义sql注入器方法
- 2024-10-04 【实用技能】Seacms 8.7版本SQL注入分析
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- googlecloud (64)
- messagesource (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)