需要基础:Python、大学数学
机器学习的定义Machine Learning
1、调包侠
2、根据已有数据,通过数学模型(公式)来预测未知属性
3、目标函数f()未知,假设函数g()类型函数f()
4、无法找到一个完美的函数f()
5、算法就是根据业务需要和数据特征选择的相关算法,就是个数学公式,一般人只能通过调包的方式使用合适的公式。
6、模型:基于数据和算法构建出来的模型。
7、评估/测试:对模型进行评估,判断是否有用。
机器学习常用的应用框架(包)
-
scikit-learn(Python)
-
http://scikit-learn.org/stable/
-
Mahout(Hadoop生态圈基于MapReduce)
-
http://mahout.apache.org/
-
Spark MLlib
-
http://spark.apache.org/
机器学习和数据挖掘的区别与联系
- 机器学习是数据挖掘的重要工具
- 数据库管理数据
机器学习类型
有监督学习
- 用已知某种或某些特性的样本作为训练集,建立一个数学模型,再用其进行预测未知样本。
- 是通过标签化的训练数据集中推断出模型的机器学习任务。
无监督学习(如:用户画像)
- 无标签,寻找数据内在规律
- 聚类
半监督学习
考虑通过少量标注和大量未标注样本进行训练与分类,是无监督和有监督的结合
强化学习(评价学习或增强学习)
通过学习策略达到回报最大化实现目标(表示不理解)