网站首页 > 博客文章正文

Python Pandas 数据列操作详解

baijin 2025-08-05 17:23:38 博客文章 2 ℃ 0 评论

本文旨在深入探讨 Python Pandas 库中列操作的各种方法和技巧，通过 25 个具体示例，帮助读者全面理解列的创建、访问、修改、排序、清洗等操作。本文基于 Pandas 和 NumPy 库，结合实际代码示例，涵盖从基础到高级的列操作内容。

准备工作

在开始列操作之前，我们需要导入必要的库并准备示例数据。以下是初始化代码：

import pandas as pd
import numpy as np
# 示例数据
data = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Last Name': ['Smith', 'Johnson', 'Williams', 'Brown', 'Jones'],
'Marathon Time Hours': [3.5, 4.0, 3.8, 4.2, 3.9],
'50 Miler Time Hours': [8.0, 9.0, 8.5, 10.0, 9.5],
'100 Miler Time Hours': [20.0, 22.0, 21.0, 23.0, 22.5],
'Last Race Date': ['2023-10-01', '2023-09-15', '2023-08-20', '2023-07-10', '2023-06-05'],
'Running Club ID': [101, 102, 103, 104, 105]
}
# 创建数据框
df = pd.DataFrame(data)

运行 df.head() 可查看数据框的前几行，确保数据正确加载。

列操作示例

以下是 25 个示例，涵盖列的访问、创建、修改、排序、清洗等操作。

示例 1：访问单列

可以通过列名直接访问数据框中的某一列。

# 方法 1：使用方括号
print(df['Runner'])
# 方法 2：使用点号
print(df.Runner)

示例 2：访问多列

使用双括号可以同时访问多个列。

print(df[['Runner', 'Marathon Time Hours']])

示例 3：获取所有列名

有多种方法可以获取数据框的所有列名。

# 方法 1：使用 columns 属性
print(df.columns)
# 方法 2：使用 columns.values
print(df.columns.values)
# 方法 3：转为列表
print(list(df.columns))
# 方法 4：使用 keys() 方法
print(df.keys().to_list())

示例 4：排序列名

可以通过 sorted() 函数对列名进行排序。

print(sorted(df.columns))

示例 5：使用循环遍历列名

通过循环可以逐个访问列名。

for column_name in df.columns:
     print(column_name)

示例 6：处理大量列

当数据框包含大量列时（例如 100 列），可以通过设置 Pandas 显示选项查看所有列。

# 生成 100 列的随机数据
num_rows = 100
num_cols = 100
data = np.random.rand(num_rows, num_cols)
column_names = [f'Column {i+1}' for i in range(num_cols)]
df100 = pd.DataFrame(data, columns=column_names)
# 设置显示所有列
pd.set_option('display.max_columns', None)
# 或：pd.options.display.max_columns = None
print(df100)

示例 7：查看列数据类型

使用 dtypes 属性可以查看每列的数据类型。

print(df.dtypes)

示例 8：转换列数据类型

可以将列转换为特定数据类型，例如将日期字符串转换为 datetime 类型。

# 转换为 datetime
df['Last Race Date'] = pd.to_datetime(df['Last Race Date'])
print(df.dtypes)
# 转换为 float
df['Running Club ID'] = df['Running Club ID'].astype(float)
print(df.dtypes)
# 转换为字符串
df['Running Club ID'] = df['Running Club ID'].astype(str)
print(df.dtypes)

示例 9：重命名列

使用 rename 方法可以重命名列。

df.rename(columns={'Marathon Time Hours': '262 Time Hours'}, inplace=True)
print(df.head())

示例 10：基于数值创建新列

可以通过计算现有列的值来创建新列。

df['Total Time'] = df['262 Time Hours'] + df['50 Miler Time Hours'] + df['100 Miler Time Hours']
print(df.head())

示例 11：基于字符串创建新列

通过拼接字符串列创建新列。

df['Full Name'] = df['Runner'] + ' ' + df['Last Name']
print(df.head())

示例 12：从外部数据创建新列

可以从外部列表为数据框添加新列。

shirt_sizes = ['Small', 'Medium', 'Large', 'XL', 'Small']
df['Race Shirt Size'] = shirt_sizes
print(df.head())

示例 13：删除列

使用 drop 方法删除指定列。

df.drop(columns=['Race Shirt Size'], inplace=True)
print(df.head())

示例 14：重新排序列

可以通过重新定义列顺序来调整数据框的列排列。

df = df[['Full Name', 'Running Club ID', '262 Time Hours', '50 Miler Time Hours', '100 Miler Time Hours', 'Total Time']]
print(df.head())

示例 15：设置索引

可以将某列设置为索引。

df.set_index('Full Name', inplace=True)
print(df.head())

示例 16：设置多列索引

可以将多列组合设置为索引。

df.set_index(['Full Name', 'Running Club ID'], inplace=True)
print(df.head())

示例 17：重置索引

将索引重置为默认的整数索引。

df.reset_index(inplace=True)
print(df.head())

示例 18：获取数值列

使用 select_dtypes 方法获取数值类型的列。

numeric_columns = df.select_dtypes(include='number').columns
print(numeric_columns)

示例 19：描述统计

使用 describe 方法获取数值列的统计信息。

print(df.describe())

示例 20：为未命名列设置列名

创建数据框时未指定列名，可以在创建后设置。

df2 = pd.DataFrame([[23, 22, 21, 20, 19.55, 18.55]])
df2.columns = ['Race 1', 'Race 2', 'Race 3', 'Race 4', 'Race 5', 'Race 6']
print(df2)

示例 21：处理缺失值

以下示例展示如何处理包含缺失值的数据。

# 示例数据
data3 = {
'Runner': ['Alex', 'Bob', 'Charlie', 'David', 'Emma'],
'Time in Minutes': [25, None, 30, 28, None],
'Distance in Kilometers': [5, 5, None, 10, 5],
'Temperature Celsius': [20, None, 22, 21, None],
'Location': ['Park', 'Track', None, 'Road', None]
}
df3 = pd.DataFrame(data3)
# 检查单列缺失值
print(df3['Time in Minutes'].isna())
# 检查所有列的缺失值
print(df3.columns[df3.isna().any()].to_list())
# 填充缺失值
df3['Time in Minutes'] = df3['Time in Minutes'].fillna(30)
print(df3)
# 删除包含缺失值的行
df3_drop = df3.dropna(subset=['Distance in Kilometers'])
print(df3_drop)
# 删除包含缺失值的列
df3_drop_col = df3.dropna(axis=1)
print(df3_drop_col)

示例 22：插入新列

在指定位置插入新列，例如将温度从摄氏度转换为华氏度。

fahrenheit = df3['Temperature Celsius'] * 9/5 + 32
df3.insert(2, 'Temperature Fahrenheit', fahrenheit)
print(df3)

示例 23：清理列名

清理列名中的空格或不规范字符。

# 示例数据
data4 = {
' Runner Name ': ['Alex', 'Bob', 'Charlie'],
' Average Pace ': [4.5, 5.2, 4.8],
' Total Time ': [30, 45, 40],
' Calories Burned ': [300, 400, 350]
}
df4 = pd.DataFrame(data4)
# 移除列名两端的空格
df4.columns = df4.columns.str.strip()
print(df4.columns)
# 将空格替换为下划线
df4.columns = df4.columns.str.replace(' ', '_')
print(df4.columns)
# 转换为小写
df4.columns = df4.columns.str.lower()
print(df4.columns)

示例 24：过滤列

根据条件过滤数据框中的行。

# 单列过滤
print(df4[df4['average_pace'] > 5])
# 多列过滤（与条件）
print(df4[(df4['calories_burned'] < 350) & (df4['total_time'] > 43)])
# 多列过滤（或条件）
print(df4[(df4['calories_burned'] < 350) | (df4['total_time'] > 43)])

示例 25：使用 loc 和 iloc 访问数据

通过 loc 和 iloc 方法访问特定行和列。

# 使用 loc 访问单列单行
print(df4.loc[0, 'total_time'])
# 使用 loc 访问所有行单列
print(df4.loc[:, 'total_time'])
# 使用 loc 访问多列
print(df4.loc[:, 'total_time':'calories_burned'])
# 使用 loc 访问指定列
print(df4.loc[:, ['total_time', 'calories_burned']])
# 使用 iloc 访问基于整数索引
print(df4.iloc[0:2, 1:3])

总结

通过以上 25个示例，我们详细介绍了 Pandas 中列操作的多种方法，包括访问、创建、修改、排序、清洗等操作。这些技术是数据分析中不可或缺的一部分。建议读者反复练习这些代码，并根据实际需求选择合适的方法。

上一篇： Pandas 28种常用方法使用总结
下一篇：每天一个 Python 库:pandas 办公利器，数据处理效率翻倍!

网站首页 > 博客文章正文

Python Pandas 数据列操作详解

准备工作

列操作示例

示例 1：访问单列

示例 2：访问多列

示例 3：获取所有列名

示例 4：排序列名

示例 5：使用循环遍历列名

示例 6：处理大量列

示例 7：查看列数据类型

示例 8：转换列数据类型

示例 9：重命名列

示例 10：基于数值创建新列

示例 11：基于字符串创建新列

示例 12：从外部数据创建新列

示例 13：删除列

示例 14：重新排序列

示例 15：设置索引

示例 16：设置多列索引

示例 17：重置索引

示例 18：获取数值列

示例 19：描述统计

示例 20：为未命名列设置列名

示例 21：处理缺失值

示例 22：插入新列

示例 23：清理列名

示例 24：过滤列

示例 25：使用 loc 和 iloc 访问数据

总结

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

Python Pandas 数据列操作详解

准备工作

列操作示例

示例 1：访问单列

示例 2：访问多列

示例 3：获取所有列名

示例 4：排序列名

示例 5：使用循环遍历列名

示例 6：处理大量列

示例 7：查看列数据类型

示例 8：转换列数据类型

示例 9：重命名列

示例 10：基于数值创建新列

示例 11：基于字符串创建新列

示例 12：从外部数据创建新列

示例 13：删除列

示例 14：重新排序列

示例 15：设置索引

示例 16：设置多列索引

示例 17：重置索引

示例 18：获取数值列

示例 19：描述统计

示例 20：为未命名列设置列名

示例 21：处理缺失值

示例 22：插入新列

示例 23：清理列名

示例 24：过滤列

示例 25：使用 loc 和 iloc 访问数据

总结

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: