1、实验目的
通过本实验使学生能熟练应用python语言进行系统聚类分析相关软件的开发工作。
2、 实验内容
为比较10种红葡萄酒的质量,由5名品酒师对每种酒的颜色、香味、甜度、纯度和果味6项指标进行打分,最低分1分,最高分为10分,得到每种酒的每项指标的平均得分(见下图)。
图3 10种红葡萄酒的得分数据表
使用图3数据完成以下内容。
1、使用SPSS软件对图3数据采用系统聚类法进行分析;
2、用python语言编程实现系统聚类法分析,并运行上述数据,结果与第1步骤中的结果进行比对,系统聚类法实现最小距离、最大距离、重心距离、类平均距离四种中的两种,同时距离的衡量实现欧式距离、绝对距离、切贝谢夫距离、明可夫斯基距离的两种。
- 使用SPSS软件对图3数据采用系统聚类法进行分析;
最小距离+欧式
最大距离+切贝谢夫距离
2、用python语言编程实现系统聚类法分析,并运行上述数据,结果与第1步骤中的结果进行比对,系统聚类法实现最小距离、最大距离、重心距离、类平均距离四种中的两种,同时距离的衡量实现欧式距离、绝对距离、切贝谢夫距离、明可夫斯基距离的两种。
最小距离+欧式距离
import pandas as pd
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import MinMaxScaler
from matplotlib import pyplot as plt
data = pd.read_csv("实验三数据.csv",encoding="gbk") #读入数据
#清除‘酒’这列数据
data = data.drop(['酒'], axis=1)
df = MinMaxScaler().fit_transform(data)
# 建立模型
model = AgglomerativeClustering(n_clusters=3)
model.fit(df)
data['类别标签'] = model.labels_
print(data.head())
# 画图
#single为最近邻点算法,euclidean为欧式距离
ss = sch.linkage(df,method='single', metric='euclidean')
sch.dendrogram(ss)
plt.show()
运行结果
最大距离+切贝谢夫距离
import pandas as pd
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import MinMaxScaler
from matplotlib import pyplot as plt
data = pd.read_csv("实验三数据.csv",encoding="gbk") #读入数据
#清除‘酒’这列数据
data = data.drop(['酒'], axis=1)
df = MinMaxScaler().fit_transform(data)
# 建立模型
model = AgglomerativeClustering(n_clusters=3)
model.fit(df)
data['类别标签'] = model.labels_
print(data.head())
# 画图
#complete为最远邻点算法,chebychev为切贝谢夫距离
ss = sch.linkage(df,method='complete', metric='chebychev')
sch.dendrogram(ss)
plt.show()
运行结果
参考博客:机器学习之聚类算法(五)层次聚类代码实现及模型可视化
scipy.cluster.hierarchy库中linkage函数的参数
相关代码及数据:蓝奏云