Kmeans聚类:
聚类是属于无监督学习
聚类的缺点
1初始值的影响
2被异常点影响,解决方案:去掉最高和最低分,求平均,这里的异常点是从整体上来看的。
3某些场合缺少物理化,比如年龄可以平均,但是男女不能平均
4数值问题,身高和体重,体重变化明显,但是身高不变
5,k值不好计算,也就是说,k表示分几类,最少是1,最大是样本数,,我们利用拐点来计算
聚类真实的场景:
很多的文章,先聚类为4类,比如政治,财经,娱乐,汽车,每一个聚类都有对应的专家,当一篇新的文章进来时,给政治专家,看是否是政治,也就是政治专家就只看政治的
面试题:为什么不用深度学习?
1我们数据量比较小,用深度学习会过拟合
2公司比较穷,买不起cpu
DBscan聚类:
kmeans的缺点:k要自己做假设,圆环同一个中心不好区分
DBscan:k不需要自己定义,可以解决圆环问题。缺点:运算量太大,不能分布式真实的缺点:参数非常难调
kmeans和dbscan都是无监督学习
通常的使用方法:
数据–dbscan(去噪声)–kmeans
实例:不管做什么,首先观察用户的特征找该领域的专家,如果人都没办法区分,让机器怎么区分?
机器学习的目的是让专家更加专注于特长所在
自然语言处理:
NLP :我 在 马士兵教育 学习 人工智能
LDA:词不同,但是领域相同,kmeans解决不了这个问题,比如机器学习和深度学习都属于人工智能领域
具体的使用:
新来一篇文章,求主题分布
1知道每个词的主题,求出文章的主题分布
2通过文章的主题分布,以及主题-词的分布,得到每个词的分布