网站首页 > 博客文章 正文
pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。
pandas.read_csv() 是最流行的数据分析框架 pandas 中的一个方法。 我们日常使用的时候这个函数也是我们用的最多的,但是pandas.read_csv() 有很多输入参数,其中 filepath或buffer 参数是必不可少的,其余的都是可选的。所以我们一般也不会太关注,但是这些可选参数可以帮我们解决大问题。以下是read_csv完整的参数列表:
pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)
我们用以下的CSV 文件作为样例。 你可以将此数据复制到文本文件中并将其保存为 dummy.csv 文件。
#1.###############################################################,
#2. some metadata #,
#3. Last updated: 2022-06-23 05:49:15 UTC #,
#4. #,
#5. Terms Of Use: #,
#6. For questions please contact #,
#7. #############################################################,
#8. ,
date,name
2022-06-23 05:49:15,a1
2022-06-22 14:52:16,a2
2022-06-22 06:45:16,a3
2022-06-21 15:02:34,a4
2022-06-21 09:00:17,a5
2022-06-21 08:59:59,a6
2022-06-20 13:57:09,a7
2022-06-20 09:06:59,a8
2022-06-20 09:06:54,a9
2022-06-19 17:26:45,a10
2022-06-19 17:26:32,a11
2022-06-19 09:26:13,a12
2022-06-19 09:25:57,a13
2022-06-18 07:09:55,a14
2022-06-17 08:14:21,a15
1、skiprows
skiprows 接收一个正整数。 在读取 CSV 文件时,如果使用了 skiprows,Pandas 将从头开始删除指定的行。 我们想从开头跳过 8 行,因此将 skiprows 设置为 8。如下所示:
2、comment
comment接收一个字符。 如果该字符在行首出现,则将跳过该行。 我们想跳过上面显示的 CSV 文件中包含一些额外信息的行,所以 CSV 文件读入 pandas 时指定 comment = ‘#’:
3、nrows
nrows 表示从顶部开始读取的行数,这是在处理 skiprows 和comment参数后计算的。 如果希望从大文件中提取加载一部分数据,就需要这个参数。
例如,只读取在删除任何以数字“#”开头的行之后剩下的前 5 行。
4、dtype
在读取数据时可以直接定义某些列的 dtype。我们将name定义为string。
5、parse_dates
如果数据包含日期列,还可以在读取时使用 parse_dates 定义日期列。 Pandas 将自动从指定的“日期”列推断日期格式。 我们将date传入parse_dates , pandas 自动会将“date”列推断为日期 dtype。
6、skipfooter
与skiprows类似,它将跳过文件底部的行数。 (这个参数不支持engine='c',所以需要指定engine=“python”,可以看下面截图中的提示)。 CSV 文件中,如果想删除最后一行,那么可以指定 skipfooter =1:
以上就是6个非常简单但是有用的参数,在读取CSV时使用它们可以最大限度地减少数据加载所需的工作量并加快数据分析。
作者:R. Gupta
- 上一篇: jmeter-参数化你真的会吗?
- 下一篇: Python CSV文件的读写和处理
猜你喜欢
- 2025-04-26 R数据分析:如何计算问卷的组合信度,实例操练
- 2025-04-26 零起点Python机器学习快速入门-6-1-逻辑回归算法
- 2025-04-26 外婆都能学会的Python教程(十九):Python读写CSV文件
- 2025-04-26 python爬虫25 | 爬取的数据怎么保存?CSV了解一下
- 2025-04-26 R语言描述统计第一弹 | 计算泰坦尼克号不同舱位的存活率
- 2025-04-26 Python 数据可视化:使用 Matplotlib 和 Pandas 实现动态数据分析
- 2025-04-26 使用python把csv汇总成excel
- 2025-04-26 matlab读取表格数据以固定周期通过串口发送
- 2025-04-26 Pandas读取CSV文件
- 2025-04-26 Jmeter和Postman测试工具的区别
你 发表评论:
欢迎- 07-08Google Cloud Platform 加入支持 Docker 的容器引擎
- 07-08日本KDDI与Google Cloud 签署合作备忘录,共探AI未来
- 07-08美国Infoblox与Google Cloud合作推出云原生网络和安全解决方案
- 07-08GoogleCloud为Spanner数据库引入HDD层,将冷存储成本降低80%
- 07-08谷歌推出Cloud Dataproc,缩短集群启动时间
- 07-08Infovista与Google Cloud携手推进射频网络规划革新
- 07-08比利时Odoo与Google Cloud建立增强合作,扩大全球影响力
- 07-08BT 和 Google Cloud 通过 Global Fabric 加速 AI 网络
- 最近发表
-
- Google Cloud Platform 加入支持 Docker 的容器引擎
- 日本KDDI与Google Cloud 签署合作备忘录,共探AI未来
- 美国Infoblox与Google Cloud合作推出云原生网络和安全解决方案
- GoogleCloud为Spanner数据库引入HDD层,将冷存储成本降低80%
- 谷歌推出Cloud Dataproc,缩短集群启动时间
- Infovista与Google Cloud携手推进射频网络规划革新
- 比利时Odoo与Google Cloud建立增强合作,扩大全球影响力
- BT 和 Google Cloud 通过 Global Fabric 加速 AI 网络
- NCSA和Google Cloud合作开发AI驱动的网络防御系统,加强泰国网络空间的安全性
- SAP将在沙特阿拉伯 Google Cloud 上推出BTP服务
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- googlecloud (64)
- messagesource (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)