热力图是一种数据可视化技术,它通过颜色的变化来展示数据的分布情况,在热力图中,用颜色的深浅程度来表示数据值的大小,通常颜色越深表示数据值越大或者数据越密集,颜色越浅表示数据值越小或者数据越稀疏。
热力图的应用非常广泛,它可以用于显示各种类型的数据分布,通过热力图可直观地看出数据的整体分布情况,以及不同变量之间的差异性,本案例使用双色球数据用热力图展示,用于研究每个中奖号码的分布情况。
首先,使用pandas函数导入开奖数据,由于原始数据有合并单元格,但是导入的时候默认会取消单元格,可以向下填充将数据补齐,并且,使用groupby函数按照’期号’和’开奖日期’将中奖号码分组聚合为list列表的形式,如下为数据处理后的结果。
import pandas as pd
#数据导入
df=pd.read_excel(r’D:\系统桌面(勿删)\Desktop\双色球中奖号码.xlsx’,usecols=[‘期号’,‘开奖日期’,‘开奖号码’],dtype={‘期号’: str,‘开奖号码’: str})
#数据筛选
df=df.iloc[1:]
#向下填充
df_ffilled = df.fillna(method=‘ffill’)
#中奖号码分组聚合
result = df_ffilled.groupby([‘期号’,‘开奖日期’]).apply(lambda x: x[‘开奖号码’].to_list()).reset_index()
result.rename(columns={0:‘中奖号码’},inplace=True)#重命名
result.head()#数据预览
中奖号码数据为列表的形式,将其转化为字符型,然后使用replace函数替换多余的符号