专业的编程技术博客社区

网站首页 > 博客文章 正文

Python Pandas 数据列操作详解

baijin 2025-08-05 17:23:38 博客文章 2 ℃ 0 评论

本文旨在深入探讨 Python Pandas 库中列操作的各种方法和技巧,通过 25 个具体示例,帮助读者全面理解列的创建、访问、修改、排序、清洗等操作。本文基于 Pandas 和 NumPy 库,结合实际代码示例,涵盖从基础到高级的列操作内容。


准备工作

在开始列操作之前,我们需要导入必要的库并准备示例数据。以下是初始化代码:

import pandas as pd
import numpy as np
# 示例数据
data = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Last Name': ['Smith', 'Johnson', 'Williams', 'Brown', 'Jones'],
'Marathon Time Hours': [3.5, 4.0, 3.8, 4.2, 3.9],
'50 Miler Time Hours': [8.0, 9.0, 8.5, 10.0, 9.5],
'100 Miler Time Hours': [20.0, 22.0, 21.0, 23.0, 22.5],
'Last Race Date': ['2023-10-01', '2023-09-15', '2023-08-20', '2023-07-10', '2023-06-05'],
'Running Club ID': [101, 102, 103, 104, 105]
}
# 创建数据框
df = pd.DataFrame(data)

运行 df.head() 可查看数据框的前几行,确保数据正确加载。


列操作示例

以下是 25 个示例,涵盖列的访问、创建、修改、排序、清洗等操作。

示例 1:访问单列

可以通过列名直接访问数据框中的某一列。

# 方法 1:使用方括号
print(df['Runner'])
# 方法 2:使用点号
print(df.Runner)

示例 2:访问多列

使用双括号可以同时访问多个列。

print(df[['Runner', 'Marathon Time Hours']])

示例 3:获取所有列名

有多种方法可以获取数据框的所有列名。

# 方法 1:使用 columns 属性
print(df.columns)
# 方法 2:使用 columns.values
print(df.columns.values)
# 方法 3:转为列表
print(list(df.columns))
# 方法 4:使用 keys() 方法
print(df.keys().to_list())

示例 4:排序列名

可以通过 sorted() 函数对列名进行排序。

print(sorted(df.columns))

示例 5:使用循环遍历列名

通过循环可以逐个访问列名。

for column_name in df.columns:
     print(column_name)

示例 6:处理大量列

当数据框包含大量列时(例如 100 列),可以通过设置 Pandas 显示选项查看所有列。

# 生成 100 列的随机数据
num_rows = 100
num_cols = 100
data = np.random.rand(num_rows, num_cols)
column_names = [f'Column {i+1}' for i in range(num_cols)]
df100 = pd.DataFrame(data, columns=column_names)
# 设置显示所有列
pd.set_option('display.max_columns', None)
# 或:pd.options.display.max_columns = None
print(df100)

示例 7:查看列数据类型

使用 dtypes 属性可以查看每列的数据类型。

print(df.dtypes)

示例 8:转换列数据类型

可以将列转换为特定数据类型,例如将日期字符串转换为 datetime 类型。

# 转换为 datetime
df['Last Race Date'] = pd.to_datetime(df['Last Race Date'])
print(df.dtypes)
# 转换为 float
df['Running Club ID'] = df['Running Club ID'].astype(float)
print(df.dtypes)
# 转换为字符串
df['Running Club ID'] = df['Running Club ID'].astype(str)
print(df.dtypes)

示例 9:重命名列

使用 rename 方法可以重命名列。

df.rename(columns={'Marathon Time Hours': '262 Time Hours'}, inplace=True)
print(df.head())

示例 10:基于数值创建新列

可以通过计算现有列的值来创建新列。

df['Total Time'] = df['262 Time Hours'] + df['50 Miler Time Hours'] + df['100 Miler Time Hours']
print(df.head())

示例 11:基于字符串创建新列

通过拼接字符串列创建新列。

df['Full Name'] = df['Runner'] + ' ' + df['Last Name']
print(df.head())

示例 12:从外部数据创建新列

可以从外部列表为数据框添加新列。

shirt_sizes = ['Small', 'Medium', 'Large', 'XL', 'Small']
df['Race Shirt Size'] = shirt_sizes
print(df.head())

示例 13:删除列

使用 drop 方法删除指定列。

df.drop(columns=['Race Shirt Size'], inplace=True)
print(df.head())

示例 14:重新排序列

可以通过重新定义列顺序来调整数据框的列排列。

df = df[['Full Name', 'Running Club ID', '262 Time Hours', '50 Miler Time Hours', '100 Miler Time Hours', 'Total Time']]
print(df.head())

示例 15:设置索引

可以将某列设置为索引。

df.set_index('Full Name', inplace=True)
print(df.head())

示例 16:设置多列索引

可以将多列组合设置为索引。

df.set_index(['Full Name', 'Running Club ID'], inplace=True)
print(df.head())

示例 17:重置索引

将索引重置为默认的整数索引。

df.reset_index(inplace=True)
print(df.head())

示例 18:获取数值列

使用 select_dtypes 方法获取数值类型的列。

numeric_columns = df.select_dtypes(include='number').columns
print(numeric_columns)

示例 19:描述统计

使用 describe 方法获取数值列的统计信息。

print(df.describe())

示例 20:为未命名列设置列名

创建数据框时未指定列名,可以在创建后设置。

df2 = pd.DataFrame([[23, 22, 21, 20, 19.55, 18.55]])
df2.columns = ['Race 1', 'Race 2', 'Race 3', 'Race 4', 'Race 5', 'Race 6']
print(df2)

示例 21:处理缺失值

以下示例展示如何处理包含缺失值的数据。

# 示例数据
data3 = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Time in Minutes': [25, None, 30, 28, None],
'Distance in Kilometers': [5, 5, None, 10, 5],
'Temperature Celsius': [20, None, 22, 21, None],
'Location': ['Park', 'Track', None, 'Road', None]
}
df3 = pd.DataFrame(data3)
# 检查单列缺失值
print(df3['Time in Minutes'].isna())
# 检查所有列的缺失值
print(df3.columns[df3.isna().any()].to_list())
# 填充缺失值
df3['Time in Minutes'] = df3['Time in Minutes'].fillna(30)
print(df3)
# 删除包含缺失值的行
df3_drop = df3.dropna(subset=['Distance in Kilometers'])
print(df3_drop)
# 删除包含缺失值的列
df3_drop_col = df3.dropna(axis=1)
print(df3_drop_col)

示例 22:插入新列

在指定位置插入新列,例如将温度从摄氏度转换为华氏度。

fahrenheit = df3['Temperature Celsius'] * 9/5 + 32
df3.insert(2, 'Temperature Fahrenheit', fahrenheit)
print(df3)

示例 23:清理列名

清理列名中的空格或不规范字符。

# 示例数据
data4 = {
' Runner Name ': ['Alex', 'Bob', 'Charlie'],
' Average Pace ': [4.5, 5.2, 4.8],
' Total Time ': [30, 45, 40],
' Calories Burned ': [300, 400, 350]
}
df4 = pd.DataFrame(data4)
# 移除列名两端的空格
df4.columns = df4.columns.str.strip()
print(df4.columns)
# 将空格替换为下划线
df4.columns = df4.columns.str.replace(' ', '_')
print(df4.columns)
# 转换为小写
df4.columns = df4.columns.str.lower()
print(df4.columns)

示例 24:过滤列

根据条件过滤数据框中的行。

# 单列过滤
print(df4[df4['average_pace'] > 5])
# 多列过滤(与条件)
print(df4[(df4['calories_burned'] < 350) & (df4['total_time'] > 43)])
# 多列过滤(或条件)
print(df4[(df4['calories_burned'] < 350) | (df4['total_time'] > 43)])

示例 25:使用 loc 和 iloc 访问数据

通过 loc 和 iloc 方法访问特定行和列。

# 使用 loc 访问单列单行
print(df4.loc[0, 'total_time'])
# 使用 loc 访问所有行单列
print(df4.loc[:, 'total_time'])
# 使用 loc 访问多列
print(df4.loc[:, 'total_time':'calories_burned'])
# 使用 loc 访问指定列
print(df4.loc[:, ['total_time', 'calories_burned']])
# 使用 iloc 访问基于整数索引
print(df4.iloc[0:2, 1:3])

总结

通过以上 25个示例,我们详细介绍了 Pandas 中列操作的多种方法,包括访问、创建、修改、排序、清洗等操作。这些技术是数据分析中不可或缺的一部分。建议读者反复练习这些代码,并根据实际需求选择合适的方法。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表