机器学习算法优缺点总结

机器学习算法优缺点总结：

无监督学习算法：
1. 聚类算法：K-Means
  1. K-Means中心思想：事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度，将样本点归到最相似的类中，接着，重新计算每个类的质心，重复这样的过程，直到质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。
  2. 优点：
    - 算法原理简单、处理速度较快
    - 当聚类是密集的，且类与类之间区别明显时，效果较好
  3. 缺点：
    - 在K-Means算法中，K是事先给定的，比较难确定
    - 对孤立点比较敏感，噪声敏感（中心点易偏移）
    - 结果不稳定，初始值的选定对结果有一定影响，结果不一定全局最优，只能保证局部最优（与K的个数及初选值有关）
  4. 应用场景：
    - 用户画像、广告推荐、搜索引擎的流量推荐、恶意流量识别
    - 基于位置信息的商业推送、新闻聚类、筛选排序
    - 图像分割、降维、离群点检测、信用卡异常消费
2. 关联规则算法：Apriori
  1. Apriori算法是一种挖掘关联规则的算法，用于挖掘其内含的、未知的却又实际存在的数据关系，其核心是基于两阶段频集思想的递推算法。
  2. 优点：
    - 使用先验性质，大大提高了频繁项集逐层产生的效率
    - 简单易理解，数据集要求低
  3. 缺点：
    - 计算量很大，当商品数据量大时更显著
    - 在验证候选频繁K项集的时候，需要对整个数据库进行扫描，非常耗时
    - 商品并不是全部平等销售的，仅使用支持度衡量，容易导致出现假性关联
  4. 应用场景：
    - 交叉销售
    - 捆绑销售
    - 基于兴趣的实时新闻推荐
监督学习算法
1. 分类算法
  1. 决策树
    1. 决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。
    2. 经典决策树算法：
      - ID3：只能对离散型属性的数据集构造决策树，信息增益作为节点特征选择
      - C4.5：ID3的扩展，可以处理连续型变量，可以处理缺失值、剪枝，

机器学习算法优缺点总结

机器学习算法优缺点总结：

悦读