pandas 把重复的列后面对应的列合并在一个单元格内并删除重复值

大家好，很久没更新文章了，这次的文章只是日常工作的一个小笔记。

场景是（data.xlsx 表中sheet1信息如下）：

名称	信息
浙江大学	小明
浙江大学	小红
浙江大学	小刚
浙江大学	小南
浙江大学	小李
工商大学	张二虎
工商大学	王麻子
工商大学	李四
财经大学	张三
财经大学	王老虎
财经大学	狗蛋儿

我要将 data.xlsx 的sheet 的表格信息实现下方效果：

名称	信息
浙江大学	小明、小红、小刚、小南、小李
工商大学	张二虎、王麻子、李四
财经大学	张三、王老虎、狗蛋儿

具体代码如下：

# encoding:utf-8
import pandas as pd

path = 'data.xlsx'

r = pd.read_excel(path, sheet_name='Sheet1')

datalist = []

businessDistrictName = r['名称'].drop_duplicates(keep='first')
for bd in businessDistrictName:

    rs = r[r['名称'] == bd]
    rl = rs.values.tolist()
    n = []
    for l in rl:
        n.append(l[-1])

    s = '、'.join(n)
    data = [bd, s]

    datalist.append(data)

df = pd.DataFrame(datalist, columns=['名称', '信息'])
df.to_excel('l.xlsx')

如果对你有帮助，别忘记点个收藏

pandas 把重复的列后面对应的列合并在一个单元格内并删除重复值

悦读