一句话概括:
1. 聚类:无监督学习,学习结果将产生几个集合,集合中的元素彼此相似;
2. 分类:有监督学习,学习结果将产生几个函数,通过函数划分为几个集合,数据对象是离散值;
3. 回归:有监督学习,学习结果将产生几个函数,通过函数产生连续的结果,数据对象是连续值;
聚类
聚类算法是无监督学习的一种算法,也就是说,并没有一批已经打好标签的数据供机器训练模型。因此该算法用于在数据中寻找数据间隐藏的联系和区别。通过聚类后形成几个集合,集合内部的元素间具有较高的相似度,相似度的衡量可以通过欧几里得距离、概率距离、加权重距离计算。
常见的聚类算法有:
1.划分聚类: K-means 算法、k-medoids算法、K-pototypes算法、CLARANS算法
2.层次聚类:BIRCH算法、CURE算法、
3.密度聚类:DBSCAN算法、OPTICS算法、DENCLUE算法
4.网格聚类:STING算法、CLIQUE算法、WAVE-CLUSTER算法
5.混合聚类:高斯混合模型、CLIQUE算法(综合密度和网格的算法)
几个聚类算法的简单对比: