Python 中操作 DataFrame 的常用方法主要依赖于 pandas 库,这是一个功能强大的数据分析工具。以下是一些基本和常用的 DataFrame 操作方法:
1. 创建 DataFrame:
python
import pandas as pd
data = {'Column1': [1, 2, 3], 'Column2': ['a', 'b', 'c']}
df = pd.DataFrame(data)
2.查看 DataFrame:
df.head(n): 查看前 n 行,默认为 5 行。
df.tail(n): 查看后 n 行,默认为 5 行。
3.选择数据:
通过列名选择列:df['Column1']
通过列索引选择列:df.iloc[:, 0]
通过条件选择行:df[df['Column1'] > 1]
4.数据过滤:
使用布尔索引:df[df['Column1'] == 2]
5.添加列:
df['NewColumn'] = [4, 5, 6]
6.修改列名:
单个列名:df.rename(columns={'OldName': 'NewName'})
多个列名:df.columns = ['NewName1', 'NewName2', ...]
7.删除列:
df.drop('Column1', axis=1, inplace=True)
8.排序:
df.sort_values(by='Column1')
df.sort_index()
9.聚合和统计:
df.mean(): 计算均值
df.sum(): 求和
df.max(): 求最大值
df.min(): 求最小值
10.分组:
grouped = df.groupby('Column1')
11.合并 DataFrame:
纵向合并:pd.concat([df1, df2])
横向合并:df1.merge(df2, on='key_column')
12.数据类型转换:
df['Column1'] = df['Column1'].astype(int)
13.缺失数据处理:
删除缺失值:df.dropna()
填充缺失值:df.fillna(value)
14.数据重塑:
透视表:pd.pivot_table(df, values='Column1', index='Column2', columns='Column3', aggfunc='mean')
堆叠/解堆叠:df.stack() / df.unstack()
15.保存和读取数据:
保存到 CSV:df.to_csv('filename.csv', index=False)
读取 CSV:pd.read_csv('filename.csv')
这些只是 pandas 中 DataFrame 操作的一部分常用方法。根据你的具体需求,pandas 库提供了更多的功能和方法。