网站首页 > 博客文章 正文
【摘要】
将 Mongodb 数据结构转换成结构化的数据需求,我们可利用集算器 SPL 语言来进行辅助实现。若想了解更多,请前往乾学院:将 MongoDB 导出成 csv!
来源:https://plus.google.com/+VicNgrail/posts/ebS9JUtFopw Mongodb 可以存储非结构化数据,尤其擅长存储 json 格式的数据。对于习惯于数据库表结构的用户或需要使用结构化数据的用户来说,往往希望能将非结构化的数据转换成结构化的数据,以方便后面的计算,而要将这些数据导出为标准的结构化数据经常存在一定的困难。针对这种情况,我们可以利用集算器 SPL 语言来辅助 MongoDB,方便地导出结构化数据,下面用例子说明。
Collection carInfo 的部分数据如下:
{
“_id” : ObjectId(“5518f6f8a82a704fe4216a43”),
“id” : “No1”,
“cars” : {
“name” : “Putin”,
“car” : [“porche”, “bmw”]
}
}
{
“_id” : ObjectId(“5518f745a82a704fe4216a44”),
“id” : “No2”,
“cars” : {
“name” : “jack”,
“car” : [“Toyota”, “Jetta”, “Audi”]
}
}
……
需要将其导出为CSV文件,期望的数据格式如下:
使用集算器SPL的代码如下:
A 1 =mongo_open("mongodb://localhost:27017/local?user=test&password=test") 2 =mongo_shell(A1,"carInfo.find(,{_id:0})") 3 =A2.conj((t=~,~.cars.car.new(t.id:id, t.cars.name:name, ~:car))) 4 =file("D:\\data.csv").export@t(A3;",") 5 >mongo_close(A1)
A1: 连接MongoDB,连接字格式为mongo://ip:port/db?arg=value&…
A2: 使用find函数从集合carInfo中取数,形成游标。过滤条件是空,取出_id之外的所有字段。
A3: 取出需要的字段,拼接合成结构化二维表,结果仍然是游标。其中~表示A2中的每个document,并对cars.car字段进行拆分成行后组成序表,函数conj表示对序表纵向合并。
A4: 将A3导出为逗号分隔的csv文件,其中@t表示导出时带列名。SPL引擎会自动管理缓存,每次从游标取一批记录到内存进行计算。
A5: 关闭MongoDB。
如果用户想自己管理每批处理的数据,也可以用下面的代码:
A B 1 =mongo_open("mongodb://localhost:27017/local?user=test&password=test") 2 =mongo_shell(A1,"carInfo.find(,{_id:0})") 3 for A2,1000 =A3.cars.car.new(A3.id:id, A3.cars.name:name, ~:car) 4 =file("D:\\data.csv").export@ta(B3;",") 5 >mongo_close(A1)
A3: 循环从游标读数,每次读1000条到内存。A3的作用范围是缩进的B3到B4,其间可以用A3来引用循环变量。A3中的数据如下:
B3:将本批次数据转换为结构化二维表,如下:
B4:将本批次的计算结果追加到文件中,其中@a表示数据追加。
简言之,SPL得到数据集合的游标后,将每个document按car字段拆分后组成序表,将序表合并或以追加方式保存为文件即可。显然,对于这类非结构化数据向结构化数据的转换,SPL语言的处理非常高效且简明。
猜你喜欢
- 2024-09-17 Kudra 介绍:可以从任何文档工具中提取代码数据
- 2024-09-17 Linux系统管理员必备的监控工具(linux监控工具nmon)
- 2024-09-17 简洁而优雅,Python Tablib实现将数据导出为Excel, Json等N种格式
- 2024-09-17 奋战一年,LangChain首个稳定版本发布,LangGraph把智能体构建为图
- 2024-09-17 推荐几个开发必备的JSON工具(推荐几个开发必备的json工具有哪些)
- 2024-09-17 浅谈在Linux中使用mongoexport工具导出数据
- 2024-09-17 常用的图像标注工具汇总(图像标注主要包括哪些项目)
- 2024-09-17 Python新工具:用三行代码提取PDF表格数据
- 2024-09-17 有备无患「GitHub 热点速览」(有备无患better safe than sorry)
- 2024-09-17 13个MacOS很赞的开源小工具-IT开发利器
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)