机器学习算法优缺点总结:
- 无监督学习算法:
- 聚类算法:K-Means
- K-Means中心思想:事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度,将样本点归到最相似的类中,接着,重新计算每个类的质心,重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。
- 优点:
- 算法原理简单、处理速度较快
- 当聚类是密集的,且类与类之间区别明显时,效果较好
- 缺点:
- 在K-Means算法中,K是事先给定的,比较难确定
- 对孤立点比较敏感,噪声敏感(中心点易偏移)
- 结果不稳定,初始值的选定对结果有一定影响,结果不一定全局最优,只能保证局部最优(与K的个数及初选值有关)
- 应用场景:
- 用户画像、广告推荐、搜索引擎的流量推荐、恶意流量识别
- 基于位置信息的商业推送、新闻聚类、筛选排序
- 图像分割、降维、离群点检测、信用卡异常消费
- 关联规则算法:Apriori
- Apriori算法是一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系,其核心是基于两阶段频集思想的递推算法。
- 优点:
- 使用先验性质,大大提高了频繁项集逐层产生的效率
- 简单易理解,数据集要求低
- 缺点:
- 计算量很大,当商品数据量大时更显著
- 在验证候选频繁K项集的时候,需要对整个数据库进行扫描,非常耗时
- 商品并不是全部平等销售的,仅使用支持度衡量,容易导致出现假性关联
- 应用场景:
- 交叉销售
- 捆绑销售
- 基于兴趣的实时新闻推荐
- 聚类算法:K-Means
- 监督学习算法
- 分类算法
- 决策树
- 决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。
- 经典决策树算法:
- ID3:只能对离散型属性的数据集构造决策树,信息增益作为节点特征选择
- C4.5:ID3的扩展,可以处理连续型变量,可以处理缺失值、剪枝,
- 决策树
- 分类算法