网站首页 > 博客文章 正文
如果你在学Python数据处理,一定对CSV文件不陌生。日常本地数据存储中,除了Excel文件外,大部分数据都是以CSV文件格式保存的。
CSV(Comma-Separated Values)是一种文本文件,也叫作逗号分隔值文件格式。顾名思义,它就是用来保存纯文本,被分隔符分隔为多个字段。
CSV文件能够被Excel、notepad++、Java、Python等各种软件读取,非常方便。
因为它结构简单、易传输、易读取的特性,使其广受个人和商业领域欢迎。
在Python中,可以使用read函数、pandas库、csv库等读写CSV文件,而且这些也是常用的方法。
这次给大家介绍一个非常强大的第三方库-csvkit,它是专门处理CSV文件的命令行工具,可以实现文件互转、数据处理、数据统计等,十分便捷。
因为csvkit是Python第三方库,我们直接使用pip来安装csvkit。
pip install csvkit
csvkit是命令行工具,所以代码都在命令行执行,下面列举一些常见的使用场景。
我们先在本地保存一个Excel表(DoubanMovie),其内容是豆瓣电影数据。
注意命令行地址要切换到该表所在位置。
比如我放在E:\csvkit_tutorial\里面,可以用下面命令来切换。
E:
cd csvkit_tutorial
1、Excel转CSV
csvkit支持将Excel等其他数据文件转化为CSV文件,使用in2csv命令实现。
in2csv DoubanMovie.xlsx > DoubanMovie.csv
除了Excel的xlsx和xls文件外,你还可以对下面多种数据格式进行CSV的转换
包括:dbf , fixed , geojson , json , ndjson
2、对SQL数据库进行读写和查询操作
从MySQL数据库中读取一张表存到本地CSV文件中,使用csvsql命令实现。
csvsql --db "mysql://user:pass@host/database?charset=utf8" --tables "test1" --insert test1.csv
直接对MySQL数据库进行数据查询,使用sql2csv命令实现
sql2csv --db "mysql://user:pass@host/database?charset=utf8" --query "select * from test2"
注意代码中--db参数后面需要输入数据库的信息,用于连接数据库。
3、将CSV文件转换为Json格式
除了将Json文件转化为CSV格式外,csvkit也支持将CSV文件转化为Json格式,使用csvjson命令实现。
csvjson test.csv
如果你是做地理空间分析,还可以将csv文件转化为GeoJson格式。
4、数据处理和分析
csvkit中还有用于数据处理分析的命令,如下:
- csvcut:对数据进行索引切片
- csvgrep:对数据进行过滤,可按照正则表达式规则
- csvjoin:对不同数据表按键进行连接
- csvsort:对数据进行排序
- csvstack:将多个数据表进行合并
- csvlook:以 Markdown 兼容的固定宽度格式将 CSV 呈现到命令行
- csvstat:对数据进行简单的统计分析
小结
csvkit适合那些经常处理CSV文件的小伙伴,可快速的进行转化、清晰、分析等任务。特别当你的文件较大,一般软件难以打开时,csvkit的速度绝对会让你惊艳到。
猜你喜欢
- 2024-09-17 Kudra 介绍:可以从任何文档工具中提取代码数据
- 2024-09-17 Linux系统管理员必备的监控工具(linux监控工具nmon)
- 2024-09-17 简洁而优雅,Python Tablib实现将数据导出为Excel, Json等N种格式
- 2024-09-17 奋战一年,LangChain首个稳定版本发布,LangGraph把智能体构建为图
- 2024-09-17 推荐几个开发必备的JSON工具(推荐几个开发必备的json工具有哪些)
- 2024-09-17 浅谈在Linux中使用mongoexport工具导出数据
- 2024-09-17 常用的图像标注工具汇总(图像标注主要包括哪些项目)
- 2024-09-17 Python新工具:用三行代码提取PDF表格数据
- 2024-09-17 有备无患「GitHub 热点速览」(有备无患better safe than sorry)
- 2024-09-17 13个MacOS很赞的开源小工具-IT开发利器
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)