学习人工智能第四周：聚类和自然语言处理

Kmeans聚类：

聚类是属于无监督学习
聚类的缺点
1初始值的影响
2被异常点影响，解决方案：去掉最高和最低分，求平均，这里的异常点是从整体上来看的。
3某些场合缺少物理化，比如年龄可以平均，但是男女不能平均
4数值问题，身高和体重，体重变化明显，但是身高不变
5，k值不好计算，也就是说，k表示分几类，最少是1，最大是样本数，，我们利用拐点来计算
聚类真实的场景：
很多的文章，先聚类为4类，比如政治，财经，娱乐，汽车，每一个聚类都有对应的专家，当一篇新的文章进来时，给政治专家，看是否是政治，也就是政治专家就只看政治的
面试题：为什么不用深度学习?
1我们数据量比较小，用深度学习会过拟合
2公司比较穷，买不起cpu

DBscan聚类：

kmeans的缺点：k要自己做假设，圆环同一个中心不好区分
DBscan：k不需要自己定义，可以解决圆环问题。缺点：运算量太大，不能分布式真实的缺点：参数非常难调
kmeans和dbscan都是无监督学习
通常的使用方法：
数据–dbscan（去噪声）–kmeans
实例：不管做什么，首先观察用户的特征找该领域的专家，如果人都没办法区分，让机器怎么区分?
机器学习的目的是让专家更加专注于特长所在

自然语言处理：

NLP ：我在马士兵教育学习人工智能
LDA：词不同，但是领域相同，kmeans解决不了这个问题，比如机器学习和深度学习都属于人工智能领域
具体的使用：
新来一篇文章，求主题分布
1知道每个词的主题，求出文章的主题分布
2通过文章的主题分布，以及主题-词的分布，得到每个词的分布