Bootstrap

【Pandas 合并数据】


一、什么是数据合并?

数据合并是将两个或多个数据集(DataFrame)中的数据合并成一个新的数据集的过程。


二、合并的基本方法

1. 使用concat()函数

concat()函数用于将两个或多个数据集按照指定的轴(行或列)进行连接。

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7']})

result = pd.concat([df1, df2])
print(result)

2. 使用merge()函数

merge()函数用于根据一个或多个键(key)合并数据集。这种合并方式类似于SQL中的JOIN操作。

import pandas as pd

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
                    'value': [5, 6, 7, 8]})

result = pd.merge(df1, df2, on='key')
print(result)

3. 使用join()函数

join()函数用于通过索引合并数据集。默认情况下,它使用索引的交集来合并数据。

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3']},
                   index=['I0', 'I1', 'I2', 'I3'])

df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2', 'B3']},
                   index=['I1', 'I2', 'I3', 'I4'])

result = df1.join(df2)
print(result)

4. 使用append()函数

append()函数用于将一个数据集附加到另一个数据集的末尾。

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7']})

result = df1._append(df2)
print(result)


三、合并时的参数设置

在合并数据时,可以根据需要设置不同的参数,以控制合并的方式和结果。

  • how:指定合并的方式,可选值包括’inner’、‘outer’、‘left’和’right’。
  • on:指定用于合并的列或键。
  • left_onright_on:用于指定左侧和右侧数据集的合并键。
  • suffixes:用于处理合并时重复列名的后缀。
  • left_indexright_index:是否使用索引作为合并键。
;