网站首页 > 博客文章 正文
本文旨在深入探讨 Python Pandas 库中列操作的各种方法和技巧,通过 25 个具体示例,帮助读者全面理解列的创建、访问、修改、排序、清洗等操作。本文基于 Pandas 和 NumPy 库,结合实际代码示例,涵盖从基础到高级的列操作内容。
准备工作
在开始列操作之前,我们需要导入必要的库并准备示例数据。以下是初始化代码:
import pandas as pd
import numpy as np
# 示例数据
data = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Last Name': ['Smith', 'Johnson', 'Williams', 'Brown', 'Jones'],
'Marathon Time Hours': [3.5, 4.0, 3.8, 4.2, 3.9],
'50 Miler Time Hours': [8.0, 9.0, 8.5, 10.0, 9.5],
'100 Miler Time Hours': [20.0, 22.0, 21.0, 23.0, 22.5],
'Last Race Date': ['2023-10-01', '2023-09-15', '2023-08-20', '2023-07-10', '2023-06-05'],
'Running Club ID': [101, 102, 103, 104, 105]
}
# 创建数据框
df = pd.DataFrame(data)
运行 df.head() 可查看数据框的前几行,确保数据正确加载。
列操作示例
以下是 25 个示例,涵盖列的访问、创建、修改、排序、清洗等操作。
示例 1:访问单列
可以通过列名直接访问数据框中的某一列。
# 方法 1:使用方括号
print(df['Runner'])
# 方法 2:使用点号
print(df.Runner)
示例 2:访问多列
使用双括号可以同时访问多个列。
print(df[['Runner', 'Marathon Time Hours']])
示例 3:获取所有列名
有多种方法可以获取数据框的所有列名。
# 方法 1:使用 columns 属性
print(df.columns)
# 方法 2:使用 columns.values
print(df.columns.values)
# 方法 3:转为列表
print(list(df.columns))
# 方法 4:使用 keys() 方法
print(df.keys().to_list())
示例 4:排序列名
可以通过 sorted() 函数对列名进行排序。
print(sorted(df.columns))
示例 5:使用循环遍历列名
通过循环可以逐个访问列名。
for column_name in df.columns:
print(column_name)
示例 6:处理大量列
当数据框包含大量列时(例如 100 列),可以通过设置 Pandas 显示选项查看所有列。
# 生成 100 列的随机数据
num_rows = 100
num_cols = 100
data = np.random.rand(num_rows, num_cols)
column_names = [f'Column {i+1}' for i in range(num_cols)]
df100 = pd.DataFrame(data, columns=column_names)
# 设置显示所有列
pd.set_option('display.max_columns', None)
# 或:pd.options.display.max_columns = None
print(df100)
示例 7:查看列数据类型
使用 dtypes 属性可以查看每列的数据类型。
print(df.dtypes)
示例 8:转换列数据类型
可以将列转换为特定数据类型,例如将日期字符串转换为 datetime 类型。
# 转换为 datetime
df['Last Race Date'] = pd.to_datetime(df['Last Race Date'])
print(df.dtypes)
# 转换为 float
df['Running Club ID'] = df['Running Club ID'].astype(float)
print(df.dtypes)
# 转换为字符串
df['Running Club ID'] = df['Running Club ID'].astype(str)
print(df.dtypes)
示例 9:重命名列
使用 rename 方法可以重命名列。
df.rename(columns={'Marathon Time Hours': '262 Time Hours'}, inplace=True)
print(df.head())
示例 10:基于数值创建新列
可以通过计算现有列的值来创建新列。
df['Total Time'] = df['262 Time Hours'] + df['50 Miler Time Hours'] + df['100 Miler Time Hours']
print(df.head())
示例 11:基于字符串创建新列
通过拼接字符串列创建新列。
df['Full Name'] = df['Runner'] + ' ' + df['Last Name']
print(df.head())
示例 12:从外部数据创建新列
可以从外部列表为数据框添加新列。
shirt_sizes = ['Small', 'Medium', 'Large', 'XL', 'Small']
df['Race Shirt Size'] = shirt_sizes
print(df.head())
示例 13:删除列
使用 drop 方法删除指定列。
df.drop(columns=['Race Shirt Size'], inplace=True)
print(df.head())
示例 14:重新排序列
可以通过重新定义列顺序来调整数据框的列排列。
df = df[['Full Name', 'Running Club ID', '262 Time Hours', '50 Miler Time Hours', '100 Miler Time Hours', 'Total Time']]
print(df.head())
示例 15:设置索引
可以将某列设置为索引。
df.set_index('Full Name', inplace=True)
print(df.head())
示例 16:设置多列索引
可以将多列组合设置为索引。
df.set_index(['Full Name', 'Running Club ID'], inplace=True)
print(df.head())
示例 17:重置索引
将索引重置为默认的整数索引。
df.reset_index(inplace=True)
print(df.head())
示例 18:获取数值列
使用 select_dtypes 方法获取数值类型的列。
numeric_columns = df.select_dtypes(include='number').columns
print(numeric_columns)
示例 19:描述统计
使用 describe 方法获取数值列的统计信息。
print(df.describe())
示例 20:为未命名列设置列名
创建数据框时未指定列名,可以在创建后设置。
df2 = pd.DataFrame([[23, 22, 21, 20, 19.55, 18.55]])
df2.columns = ['Race 1', 'Race 2', 'Race 3', 'Race 4', 'Race 5', 'Race 6']
print(df2)
示例 21:处理缺失值
以下示例展示如何处理包含缺失值的数据。
# 示例数据
data3 = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Time in Minutes': [25, None, 30, 28, None],
'Distance in Kilometers': [5, 5, None, 10, 5],
'Temperature Celsius': [20, None, 22, 21, None],
'Location': ['Park', 'Track', None, 'Road', None]
}
df3 = pd.DataFrame(data3)
# 检查单列缺失值
print(df3['Time in Minutes'].isna())
# 检查所有列的缺失值
print(df3.columns[df3.isna().any()].to_list())
# 填充缺失值
df3['Time in Minutes'] = df3['Time in Minutes'].fillna(30)
print(df3)
# 删除包含缺失值的行
df3_drop = df3.dropna(subset=['Distance in Kilometers'])
print(df3_drop)
# 删除包含缺失值的列
df3_drop_col = df3.dropna(axis=1)
print(df3_drop_col)
示例 22:插入新列
在指定位置插入新列,例如将温度从摄氏度转换为华氏度。
fahrenheit = df3['Temperature Celsius'] * 9/5 + 32
df3.insert(2, 'Temperature Fahrenheit', fahrenheit)
print(df3)
示例 23:清理列名
清理列名中的空格或不规范字符。
# 示例数据
data4 = {
' Runner Name ': ['Alex', 'Bob', 'Charlie'],
' Average Pace ': [4.5, 5.2, 4.8],
' Total Time ': [30, 45, 40],
' Calories Burned ': [300, 400, 350]
}
df4 = pd.DataFrame(data4)
# 移除列名两端的空格
df4.columns = df4.columns.str.strip()
print(df4.columns)
# 将空格替换为下划线
df4.columns = df4.columns.str.replace(' ', '_')
print(df4.columns)
# 转换为小写
df4.columns = df4.columns.str.lower()
print(df4.columns)
示例 24:过滤列
根据条件过滤数据框中的行。
# 单列过滤
print(df4[df4['average_pace'] > 5])
# 多列过滤(与条件)
print(df4[(df4['calories_burned'] < 350) & (df4['total_time'] > 43)])
# 多列过滤(或条件)
print(df4[(df4['calories_burned'] < 350) | (df4['total_time'] > 43)])
示例 25:使用 loc 和 iloc 访问数据
通过 loc 和 iloc 方法访问特定行和列。
# 使用 loc 访问单列单行
print(df4.loc[0, 'total_time'])
# 使用 loc 访问所有行单列
print(df4.loc[:, 'total_time'])
# 使用 loc 访问多列
print(df4.loc[:, 'total_time':'calories_burned'])
# 使用 loc 访问指定列
print(df4.loc[:, ['total_time', 'calories_burned']])
# 使用 iloc 访问基于整数索引
print(df4.iloc[0:2, 1:3])
总结
通过以上 25个示例,我们详细介绍了 Pandas 中列操作的多种方法,包括访问、创建、修改、排序、清洗等操作。这些技术是数据分析中不可或缺的一部分。建议读者反复练习这些代码,并根据实际需求选择合适的方法。
猜你喜欢
- 2025-08-05 Python 数据分析实例——生存分析
- 2025-08-05 CBN丨China’s industrial profits continue to improve in October
- 2025-08-05 [机器学习] Yellowbrick使用笔记1-快速入门
- 2025-08-05 Pandas之十二速查手册(推荐打印)
- 2025-08-05 CBN丨Most Chinese provinces aim to achieve at least 5% GDP growth in 2025
- 2025-08-05 Pandas:让你像写SQL一样做数据分析
- 2025-08-05 概率分布,贝叶斯神经网络python开发程序包pyro教程和使用指南
- 2025-08-05 AI工程师跃迁指南:10个必学经典算法代码详解+模型调优修炼
- 2025-08-05 【机器学习】数据挖掘神器LightGBM详解(附代码)
- 2025-08-05 《pandas库(数据处理)》
你 发表评论:
欢迎- 08-06nginx 反向代理
- 08-06跨表插入连续的日期,sheetsname函数#excel技巧
- 08-06初中生也能学的编程,不走弯路,先用后学
- 08-06find命令的“七种武器”:远不止-name和-type
- 08-06恶意代码常见的编程方式
- 08-06kali2021ping 外网不通
- 08-06因为一个函数strtok踩坑,我被老工程师无情嘲笑了
- 08-06hadoop集群搭建详细方法
- 最近发表
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- googlecloud (64)
- powershellfor (73)
- messagesource (71)
- plsql64位 (73)
- vueproxytable (64)
- npminstallsave (63)
- #NAME? (61)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- nacos启动失败 (64)
- ssh-add (70)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- qcombobox样式表 (68)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)