文章目录
一、什么是数据合并?
数据合并是将两个或多个数据集(DataFrame)中的数据合并成一个新的数据集的过程。
二、合并的基本方法
1. 使用concat()
函数
concat()
函数用于将两个或多个数据集按照指定的轴(行或列)进行连接。
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
'B': ['B4', 'B5', 'B6', 'B7']})
result = pd.concat([df1, df2])
print(result)
2. 使用merge()
函数
merge()
函数用于根据一个或多个键(key)合并数据集。这种合并方式类似于SQL中的JOIN操作。
import pandas as pd
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
'value': [5, 6, 7, 8]})
result = pd.merge(df1, df2, on='key')
print(result)
3. 使用join()
函数
join()
函数用于通过索引合并数据集。默认情况下,它使用索引的交集来合并数据。
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3']},
index=['I0', 'I1', 'I2', 'I3'])
df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2', 'B3']},
index=['I1', 'I2', 'I3', 'I4'])
result = df1.join(df2)
print(result)
4. 使用append()
函数
append()
函数用于将一个数据集附加到另一个数据集的末尾。
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7']})
result = df1._append(df2)
print(result)
三、合并时的参数设置
在合并数据时,可以根据需要设置不同的参数,以控制合并的方式和结果。
how
:指定合并的方式,可选值包括’inner’、‘outer’、‘left’和’right’。on
:指定用于合并的列或键。left_on
和right_on
:用于指定左侧和右侧数据集的合并键。suffixes
:用于处理合并时重复列名的后缀。left_index
和right_index
:是否使用索引作为合并键。