Bootstrap

Python数据分析-matplotlib

目录

一、折线图:plt.plot()

1.1 plt.plot()基本用法

1.2 设置坐标轴范围:plt.axis([xmin,xmax,ymin,ymax])

1.3 plt.plot()绘制多个图形

1.4 linewidth设置线条宽度

1.5 使用plt.plot()的返回值设置线条属性

1.6 plt.setp()修改线条性质

1.7 对特殊点做标记

 ​编辑

二、子图:plt.subplot()

三、柱状图:plt.bar()

3.1 柱状图基本操作

3.2 添加其他属性

四、饼图:plt.pie()

4.1 饼图基本操作

4.2 添加其他属性

五、频率分布直方图:plt.hist()

5.1 直方图基本操作

5.2 添加其他属性

5.3 绘制双轴图

六、散点图:plt.scatter()

七、箱线图:plt.boxplot()

7.1 箱线图基本操作

7.2 添加其他属性

7.3 绘制多组数据的箱线图

八、相关系数矩阵图-热力图

8.1 相关系数矩阵图:pd.plotting.scatter_matrix()

8.2 seaborn库画热力图:sns.heatmap()


一、折线图:plt.plot()

1.1 plt.plot()基本用法

import matplotlib.pyplot as plt    #导入相关的包
import numpy as np
import pandas as pd

plt.plot([1,2,3,4])# 若只给入一个列表则会被当成y值,x值为0,1,2,3
plt.ylabel('y')  # x轴的名字
plt.xlabel('x')  # y轴的名字

plt.plot([1,2,3,4],[1,4,9,16]) # 若传入两个列表则第一个为x,第二个列表为y
# 默认情况下,matplotlib.pyplot 不会直接显示图像,只有调⽤ plt.show()函数时,图像才会显示出来
plt.show() 

 还可以指定折线的类型和颜色:

 以折现颜色为蓝色,类型为圆点为例:

plt.plot([1,2,3,4],[1,4,9,16],'bo')    #'b'蓝色 'o'圆点
plt.show()

1.2 设置坐标轴范围:plt.axis([xmin,xmax,ymin,ymax])

plt.plot([1,2,3,4],[1,4,9,16],'g*')
plt.axis([0,6,0,20]) # 设置坐标轴范围,x轴0-6,y轴0-20
plt.show()

1.3 plt.plot()绘制多个图形

t=np.arange(0,5,0.2)
plt.plot(t,t,'r--',t,t**2,'bs',t,t**3,'g^')
plt.show()

1.4 linewidth设置线条宽度

x=np.linspace(-np.pi,np.pi)
y=np.sin(x)
plt.plot(x,y,linewidth=1.0,color='r') # 通过关键字指定线条宽度,颜色
plt.show()

1.5 使用plt.plot()的返回值设置线条属性

line1,line2=plt.plot(x,y,'r-',x,y+1,'g-')#返回给两个变量,若前面是一个变量,将会给这个变量返回一个列表,而我们无法对列表进行操作
line1.set_antialiased(False)#对line1去掉抗锯齿
plt.show()

1.6 plt.setp()修改线条性质

line=plt.plot(x,y)
plt.setp(line,color='g',linewidth=4)

1.7 对特殊点做标记

import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx')
data=df['年代'].value_counts()
data=data.sort_index()[:-3]  # 对index排序
data    # 查看数据

x=data.index
y=data.values

plt.plot(x,y,color='b')

plt.title('每年的电影数量',fontsize=20)     # 添加图像标题并设置标题大小
plt.xlabel('年代',fontsize=18)             # 添加x轴标题
plt.ylabel('电影数量',fontsize=18)

plt.show()

1888       2
1890       1
1892       1
1894       3
1895       8
        ... 
2011    1845
2012    2018
2013    1977
2014    1867
2015    1569
Name: 年代, Length: 125, dtype: int64

 

对特殊点做标记:

x=data.index
y=data.values

plt.figure(figsize=(10,6))
plt.plot(x,y,color='b')

plt.title('每年的电影数量',fontsize=20)
plt.xlabel('年代',fontsize=18)
plt.ylabel('电影数量',fontsize=18)

#每隔十年显示数字,初始值为1888
for a,b in zip(x[::10],y[::10]):
    plt.text(a,b+10,b,ha='center',va='bottom',fontsize=12)
    
#标记特殊点
plt.annotate('2012年达到最大值',xy=(2012,data[2012]),xytext=(2022,2100),arrowprops=dict(facecolor='black',edgecolor='red'))
# '2012年达到最大值':要填充的文本 ,xy=(2012,data[2012]):要标记的坐标点(箭头尖端的位置)  xytext=(2025,2100):箭头末端的位置
# arrowprops=dict(facecolor='black',edgecolor='red'):箭头的填充色和边框的颜色
plt.text(1980,1000,'电影数量开始快速增长')# 在指定位置放入文字,在坐标(1980,1000,)写电影数量开始快速增长
plt.show()

 

二、子图:plt.subplot()

plt.figure(figsize = (x,y)):生成x*y的图像

plt.subplot(x,y,z):生成x行y列的图像,将该图形放置在第z个图像上

def f(t):
    return np.exp(-t)*np.cos(2*np.pi*t)

t1=np.arange(0.0,5.0,0.1)
t2=np.arange(0.0,5.0,0.02)

plt.figure(figsize=(10,4)) # 生成10*4的图像
plt.subplot(2,1,1) # 生成两行一列的子图,将第一个图形放在第一个图像上
plt.plot(t1,f(t1),'bo',t2,f(t2),'k') # 绘制第一个图形

plt.subplot(2,1,2) # 将第二个图形放在第二个图像上
plt.plot(t2,np.cos(2*np.pi*t2),'r--') # 绘制第二个图形

def f(t):
    return np.exp(-t)*np.cos(2*np.pi*t)

t1=np.arange(0.0,5.0,0.1)
t2=np.arange(0.0,5.0,0.02)

plt.figure(figsize=(10,4)) # 生成10*4的图像
plt.subplot(2,2,1) # 生成两行一列的子图,将第一个图形放在第一个图像上
plt.plot(t1,f(t1),'bo',t2,f(t2),'k') # 绘制第一个图形

plt.subplot(2,2,2) # 将第二个图形放在第二个图像上
plt.plot(t2,np.cos(2*np.pi*t2),'r--') # 绘制第二个图形

plt.subplot(2,2,3) # 将第三个图形放在第三个图像上
plt.plot(t1,f(t1),'bo',t2,f(t2),'k') # 绘制第三个图形

plt.subplot(2,2,4) # 将第四个图形放在第四个图像上
plt.plot(t2,np.cos(2*np.pi*t2),'r--') # 绘制第四个图形

三、柱状图:plt.bar()

3.1 柱状图基本操作

以绘制各个国家的电影数量的柱状图为例:

首先导入数据:

import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx') # 导入数据集

df[:5]看前五行的数据情况

然后取出要绘制成柱状图的数据:

data=df['产地'].value_counts()
data

接着绘制图形

x=data.index
y=data.values

plt.figure(figsize=(15,6)) # 图像大小为15*6
plt.bar(x,y,color='g')
plt.show()

 完整代码为:

import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx') # 导入数据集

df[:5] # 查看数据集的前五行
data=df['产地'].value_counts()  # 提取出需要的数据
data    # 查看提取出的数据

# 绘制柱状图
x=data.index
y=data.values
plt.figure(figsize=(15,6))
plt.bar(x,y,color='g')
plt.show()

3.2 添加其他属性

x=data.index
y=data.values

plt.figure(figsize=(20,6))
plt.bar(x,y,color='g')
#加入标题
plt.title('各个国家或地区电影数量',fontsize=20)# fontsize:图表标题字体大小设置
plt.xlabel('国家或地区',fontsize=18)# 坐标轴标题字体大小设置
plt.ylabel('电影数量',fontsize=18)

plt.tick_params(labelsize=14) # 设置y轴字体大小
plt.xticks(rotation=90) # 将x轴字体旋转90°

# 'edge':将数据标签放在柱子的顶端; 'center':将数据标签放在柱子的中间
plt.bar_label(p,label_type = 'edge')

# 将数据标签放在柱子的中间也可如下操作:
# for a,b in zip(x,y):
#     plt.text(a,b+10,b,ha='center',va='bottom',fontsize=10)
# #a,b+10为要放置的位置,b为要放置的数字,center为将数字居中,bottom是将数字放在柱子的顶端 

plt.show()

四、饼图:plt.pie()

根据电影的时长绘制柱状图

4.1 饼图基本操作

import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx')

# 因为这里的数据是连续的,需要对其作离散处理
data=pd.cut(df['时长'],[0,60,90,110,1000]).value_counts()#区间为0-60,60-90.....(做开右闭)
data

y=data.values  #饼图会自动进行归一化

plt.figure(figsize=(3,3))
plt.title('电影时长占比',fontsize=15)

plt.pie(y,labels=data.index,colors='bygr',autopct='%.2f%%')#labels:每个区间的名字  autopct:添加保留两位小数的标签
plt.show()

4.2 添加其他属性

添加图例,设置从y轴正向开始

y=data.values
y=y/sum(y)

plt.figure(figsize=(3,3))
plt.title('电影时长占比',fontsize=15)

plt.pie(y,labels=data.index,colors='bygr',autopct='%.1f%%',startangle=90)#startangle设置是从y轴正向开始
plt.legend()# 绘制图例
plt.show()

 

 

设置饼图外部字体颜色和内部颜色字体:

y=data.values
#饼图会自动进行归一化
#y=y/sum(y)

plt.figure(figsize=(6,6))
plt.title('电影时长占比',fontsize=15)

patches,l_text,p_text=plt.pie(y,labels=data.index,colors='bygr',autopct='%.1f%%',startangle=90)
# l_text,p_text:饼图外部字体颜色和饼图内部颜色字体设置
for i in p_text:
    i.set_size(15)#内部字体15号字体
    i.set_color('w')#白色
for i in l_text:
    i.set_size(15)
    i.set_color('r')

plt.legend()
plt.show()

五、频率分布直方图:plt.hist()

根据电影评分绘制频率分布直方图

5.1 直方图基本操作


import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx') # 导入数据

plt.figure(figsize=(10,6)) 设置图像比例
plt.hist(df['评分'],bins=20)
plt.show()

5.2 添加其他属性

plt.figure(figsize=(10,6))
plt.hist(df['评分'],bins=20,edgecolor='black',alpha=0.5)
plt.show()

5.3 绘制双轴图

绘制电影评分的双轴图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
from scipy.stats import norm
import warnings
warnings.filterwarnings('ignore')#不报警告
plt.rcParams['font.sans-serif']=['SimHei']#设置字体为黑体
plt.rcParams['axes.unicode_minus']=False#设置负号能够正常显示


df=pd.read_excel('movie_data3.xlsx')

fig=plt.figure(figsize=(5,4))
ax1=fig.add_subplot(111)   #一行一列第一个图
n,bins,patches=ax1.hist(df['评分'],bins=100,color='m')

ax1.set_ylabel('电影数量',fontsize=15)
ax1.set_xlabel('评分',fontsize=15)
ax1.set_title('频率分布直方图',fontsize=20)

y=norm.pdf(bins,df['评分'].mean(),df['评分'].std())
ax2=ax1.twinx()
ax2.plot(bins,y,'b--')
ax2.set_ylabel('概率分布',fontsize=15)
plt.show()

六、散点图:plt.scatter()

绘制电影时长和评分的散点图:

import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx')
x=df['时长']
y=df['评分']

plt.figure(figsize=(10,8))
plt.scatter(x,y) # 散点图绘制函数
plt.legend() # 图例
plt.title('电影时长与评分散点图',fontsize=20)
plt.xlabel('时长',fontsize=18) # x轴标题
plt.ylabel('评分',fontsize=18)
plt.show()

 选择原有数据的百分之一进行绘图:

#选择原有数据的百分之一
x=df['时长'][::100]
y=df['评分'][::100]

plt.figure(figsize=(10,6))
plt.scatter(x,y,color = 'c',marker = 'd')
plt.title('电影时长与评分散点图',fontsize=20)
plt.xlabel('时长',fontsize=18)
plt.ylabel('评分',fontsize=18)
plt.show()

七、箱线图:plt.boxplot()

 

绘制美国电影评分的箱线图:

7.1 箱线图基本操作

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')#不报警告
plt.rcParams['font.sans-serif']=['SimHei']#设置字体为黑体
plt.rcParams['axes.unicode_minus']=False#设置负号能够正常显示

df=pd.read_excel('movie_data3.xlsx')
data=df[df.产地=='美国']['评分'] # 产地为美国的电影评分数据

plt.figure(figsize=(5,4))
plt.boxplot(data,whis=2)
plt.title('美国电影评分',fontsize=15)
plt.show()

 

7.2 添加其他属性

data=df[df.产地=='美国']['评分']

plt.figure(figsize=(5,3))
plt.boxplot(data,whis=2,flierprops={'marker':'o','markerfacecolor':'r','color':'k'}
           ,patch_artist = True,boxprops = {'color':'b','facecolor':'#9999ff'})
#flierprops:设置异常值的形状为圆圈,填充色为红色,边框为黑色 
#patch_artist = true表示可以对箱体的颜色进行修改  boxprops:color修改箱体边框颜色,facecolor修改箱体颜色
plt.title('美国电影评分',fontsize=20)
plt.grid() # 设置网格线
plt.show()

7.3 绘制多组数据的箱线图

data1=df[df.产地=='中国大陆']['评分']
data2=df[df.产地=='中国香港']['评分']
data3=df[df.产地=='日本']['评分']
data4=df[df.产地=='英国']['评分']
data5=df[df.产地=='法国']['评分']

plt.figure(figsize=(8,5))
plt.boxplot([data1,data2,data3,data4,data5],labels=['中国大陆','中国香港','日本','英国','法国'],whis=2,vert=False) # vert:旋转图形
plt.title('电影评分箱线图',fontsize=20)

ax = plt.gca()
ax.patch.set_facecolor('gray') # 背景色调为灰色
ax.patch.set_alpha(0.3) # 调整背景透明度

plt.grid() # 设置网格线
plt.show()

八、相关系数矩阵图-热力图

8.1 相关系数矩阵图:pd.plotting.scatter_matrix()

① 主对角线为核密度估计的情况:diagonal='kde'

import warnings
warnings.filterwarnings('ignore')#对警告进行忽略
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']#字体设置为黑体,若不设置将无法显示中文
plt.rcParams['axes.unicode_minus']=False  #可以显示负号

df=pd.read_excel('movie_data3.xlsx')
data=df[['投票人数','评分','时长']]
data[:5] # 查看前五行

result=pd.plotting.scatter_matrix(data,diagonal='kde',color='k',alpha=0.3,figsize=(10,10))# diagonal='kde':主对角线为核密度估计

① 主对角线为直方图的情况:diagonal='hist'

result=pd.plotting.scatter_matrix(data[::100],diagonal='hist',color='k',alpha=0.3,figsize=(10,10)) # 主对角线为直方图

8.2 seaborn库画热力图:sns.heatmap()

import seaborn as sns

corr=data.corr()
corr=abs(corr) #求绝对值,让后续绘制的图不存在正负相关

fig=plt.figure(figsize=(5,4))
ax=fig.add_subplot()

ax=sns.heatmap(corr,vmax=1,vmin=0,annot=True)#vmax,vmin设置热力图范围  annot=True:显示每个格子上的参数

plt.xticks(fontsize=15)
plt.yticks(fontsize=15)

plt.show()

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;