【11】数学建模 | 聚类模型 | K-means++算法、系统聚类算法

在这里插入图片描述

一、前言

聚类，就是将样本划分为由类似的对象组成的多个类的过程，聚类后，就可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测；也可以探究不同类之间的相关性和差异性

要点：分类是用已知类别类别对象，预测未知对象的类别；聚类是对未知类别的对象，进行分类

二、K-means聚类的算法

2.1 算法流程

定需要划分的簇的个数K值（类的个数）;
随机地选择K个数据对象作为初始的聚类中心（不一定要是我们的样本点）;
计算其余的各个数据对象到这K个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所
处在的簇类中;
调整新类并且重新计算出新类的中心;
循环步骤三和四，看中心是否收敛（不变），如果收敛或达到迭代次数则停止循环;
结束

2.2 图解K-means算法

在这里插入图片描述

2.3 K-means算法流程图

说明：在实际建模中，建议使用流程图说明算法流程，可以有效避免查重
在这里插入图片描述

2.4 K-means算法评价

优点：

算法简单、快速
对处理大数据集，该算法是相对效率高的

缺点：

要求用户必须事先给出要生成的簇的数目K
对初值敏感
对于孤立点数据敏感

提醒：K-means++算法可以解决2和3点两个缺点

2.5 K-means++算法

k-means++算法选择初始聚类中心的基本原则：初始的聚类中心之间的相互距离要尽可能的远。

算法流程：

说明：只对K-means算法“初始化K个聚类中心” 这一步进行了优化

随机选取一个样本作为第一个聚类中心
计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个值越大，表示被选取作为聚类中心的概率较大；最后，用轮盘法（依据概率大小来进行抽选）选出下一个聚类中心
重复步骤二，直到选出K个聚类中心。选出初始点后，就继续使用标准的K-means算法了

2.6 聚类算法用Spass软件实现

说明：Spass软件默认使用的是K-means++算法
在这里插入图片描述

聚类结果：

2.7 K-means算法的讨论

讨论一：聚类的个数怎么定？

回答：分几类主要取决于个人的经验与感觉，通常的做法是多尝试几个K值，看分成几类的结果更好解释，更符合分析目的等

讨论二：数据的量纲不一致怎么办？

回答：如果数据的量纲不一样，那么算距离时就没有意义。例如：如果X1单位是米，X2单位是吨，用距离公式计算就会出现“米的平方”加上“吨的平方”再开平方，最后算出的东西没有数学意义，这就有问题了

解决办法：将标准化值存为变量
在这里插入图片描述

三、系统（层次）聚类

3.1 基本原理

系统聚类的合并算法通过计算两类数据点间的距离，对最为接近的两类数据点进行组合，并反复迭代这一过程，直到所有数据点合成一类，并生成聚类谱系图

3.2图解系统聚类

在这里插入图片描述

3.3 系统聚类算法流程图

在这里插入图片描述

3.4 系统聚类的算法

将每个对象看作一类，计算两两之间的最小距离
将距离最小的两个类合并成一个新类
重新计算新类与所有类之间的距离
重复二三两步，直到所有类最后合并成一类
结束

提醒：将上述文字表述的流程绘制成一个流程图，避免被查重的最好方法就是自己动手总结

3.5 Spass软件实现系统聚类

在这里插入图片描述

3.6 聚类谱系图(树状图)

谱系图中横轴表示各类之间的距离(该距离经过了重新标度),聚类的个数可以自己从图中决定
在这里插入图片描述

3.7 聚类数量的估计

肘部法则：通过图形大致估计出最优的聚类数量
在这里插入图片描述
画图步骤一：处理数据

把数据粘贴到Excel表格中，并按照降序排好
在这里插入图片描述
画图步骤二：聚合系数折线图的画法

提醒：画出的图需要适当的修饰后放到论文当中

图形解释：

根据聚合系数折线图可知，当类别数为5时，折线的下降趋势趋于缓慢，故可将类别数设定为5
从图中可以看出，K值从1到5，畸变程度变化最大，超过5以后，畸变程度变化显著降。因此肘部就是K = 5,故可将类别数设定为5（当然，K = 3也可以解释）

画图步骤三：确定K后保存聚类结果并画图

从新聚类一次，确定聚类的个数
在这里插入图片描述
使用图表构建器化聚类散点图

示意图：

注意：

最好是不用默认的（太丑了，特别是那个背景颜色）双击图中的任意元素，可对其进行调整
只要当指标个数为2或者3的时候才能画图，上面两个图纯粹是为了演示作图过程，实际上本例中指标个数有8个，是不可能做出这样的图

四、DBSCAN算法

4.1 算法原理

DBSCAN的一种基于密度的聚类方法，聚类前不需要预先指定聚类的个数，生成的簇的个数不定（和数据有关）。该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。该方法能在具有噪声的空间数据库中发现任意形状的簇，可将密度足够大的相邻区域连接，能有效处理异常数据。简单来说就是谁和我挨的近，我就是谁兄弟兄弟的兄弟，也是我的兄弟
在这里插入图片描述

4.2 基本概念

DBSCAN算法将数据点分为三类：

核心点：在半径Eps内含有不少于MinPts数目的点
边界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内
噪音点：既不是核心点也不是边界点的点

示例：

在这里插入图片描述
在这幅图里，MinPts = 4，点A 和其他红色点是核心点，因为它们的ε-邻域（图中红色圆圈）里包含最少4 个点（包括自己），由于它们之间相互相可达，它们形成了一个聚类。点B 和点C 不是核心点，但它们可由A 经其
他核心点可达，所以也和A属于同一个聚类。点N 是局外点，它既不是核心点，又不由其他点可达。

4.3 DBSCAN算法优缺点

优点：

基于密度定义，能处理任意形状和大小的簇
可在聚类的同时发现异常点
与K-means比较起来，不需要输入要划分的聚类个数

缺点：

对输入参数ε和Minpts敏感，确定参数困难
由于DBSCAN算法中，变量ε和Minpts是全局唯一的，当聚类的密度不均匀时，聚类距离相差很大时，聚类质量差
当数据量大时，计算密度单元的计算复杂度大

注意：DBSCAN代码以及数据集，关注公众号，回复“聚类模型”，即可获取

五、聚类模型选择建议

只有两个指标，且你做出散点图后发现数据表现得很“DBSCAN”，这时候你再用DBSCAN进行聚类。其他情况下，全部使用系统聚类吧。K‐means也可以用，不过用了的话你论文上可写的东西比较少。

更多有关于聚类问题的经典获奖论文，关注公众号，回复，“聚类模型”，即可免费领取！！！
在这里插入图片描述