机器学习工作流程
1)机器学习概念:
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
2)机器学习工作流程
3)数据简介:
在数据集中一般:
-
一行数据我们称为一个样本
-
一列数据我们称为一个特征
-
有些数据有目标值,有些数据没有目标值
-
数据类型构成:
- 数据类型一:特征值+目标值(目标值是连续的和离散的)
- 数据类型二:只有特征值,没有目标值
-
数据分割:
- 机器学习一般的数据集会划分为两个部分:
- 训练数据:用于训练,构建模型
- 测试数据:用于评估模型是否有效
- 划分比例:
- 训练集:70%~80%
- 测试集:20%~30%
- 机器学习一般的数据集会划分为两个部分:
4)数据的基本处理
- 即对数据进行缺失值、去除异常值等处理
5)特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。它会直接影响机器学习的效果。
-
3.1为什么要使用特征工程?
业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
-
3.2特征工程包含内容
- 特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征
- 特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
- 特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
6)机器学习算法分类
根据数据集组成不同,可以把机器学习算法分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
1.监督学习
- 输入数据是由输入特征值和目标值组成。
- 函数的输出可以是一个连续的值(回归)
- 函数的输出可以是有限的离散值(分类)
2.无监督学习
- 输入数据是由输入特征值组成,没有目标值
- 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
- 需要根据样本间的相似性对样本集进行分类划分
3.半监督学习
- 训练集同时包含有标记样本数据和未标记样本数据
4.强化学习
- 实质是make decisions问题,即自动进行决策,并且可以做连续决策。
监督学习 | 强化学习 | |
---|---|---|
反馈映射 | 输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。 | 输出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。 |
反馈时间 | 做了比较坏的选择会立刻反馈给算法。 | 结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏。 |
输入特征 | 输入是独立同分布的。 | 面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。 |
模型评估
模型评估是模型开发过程中不可或缺的一部分。它有助于发现表达数据和最佳模型和所选模型将来工作的性能如何。
按照数据集的目标值不同,可以把模型评估氛围模型评估和回归模型评估。
1)分类模型评估
- 准确率
- 预测正确的数占样本总书的比例
- 其他评价指标:精确率、召回率、AUC指标等
2)回归模型评估
-
均方根误差
-
RMSE是一个衡量回归模型误差率的常用公式。 不过,它仅能比较误差是相同单位的模型。
-
其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)
3)拟合
模型评估用于评价训练好的模型的表现效果,其表现效果可以分为两类:过拟合和欠拟合。
-
欠拟合
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
欠拟合(under-fitting):模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。
-
过拟合
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。
深度学习
1)深度学习 —— 神经网络简介
深度学习(Deep Learning)(也称为深度结构学习【Deep Structured Learning】、层次学习【Hierarchical Learning】或者是深度机器学习【Deep Machine Learning】)是一类算法集合,是机器学习的一个分支。
深度学习的发展源头–神经网络
多层神经网络,在最初几层是识别简单内容,后面几层是识别一些复杂内容。