Andrew Ng机器学习课程总结
Andrew Ng的机器学习课程讲授的详尽而又易于理解,适合初学者。相关资源见斯坦福公开课与Ng的主页,英文不好的同学推荐网易公开课。Ng的课件关于理论介绍的很好,这里只做摘要,具体参见其课件。
主要知识点:线性回归梯度下降最小二乘似然估计 logistic回归感知器
1)回归:对连续变量的预测。
2)线性回归(Linear Regression):假设输出与输入满足线性关系。
3)代价函数(cost function):误差平方形式(LMS最小均方误差)
4)LMS求解:梯度下降法(gradient descent)
5)批梯度下降(batch gradient descent):采用所有的训练样本计算梯度
6)随机梯度下降(stochastic gradient descent):如果训练样本数过大,每次迭代选一个样本求近似梯度
7)正规方程(normal equations):不通过梯度下降求解参数(权重),通过矩阵的形式求解θ
概率解释:为什么选择误差二次项形式,而不是绝对值、4次方?假设误差符合高斯分布,且独立同分布,则通过最大似然估计得到的结果即为最小均方差形式。似然可以认为是一种概率(参数对应似然的概念,数据对应概率的概念)。
8)局部加权线性回归:假设数据整体上并不符合线性分布,可以进行局部的线性逼近,类似分段线性。具体来说就是对训练样本赋予权重,离得远的样本权重近似为0。
9)Logistic回归:回归一般是连续变量的预测,而分类往往是离散的。对于分类问题,线性回归并不适合。Logsitic函数或者sigmoid函数可以将输出限制为0~1(钟形结构)。参数通过梯度上升求解。
10)感知器(perceptron learning algorithm):限制输出为离散的0与1。
大类 | 名称 | 关键词 |
有监督分类 | ||
Gini指数,Χ2统计量,剪枝 | ||
非参数估计,贝叶斯估计 | ||
Fishre判别,特征向量求解 | ||
相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数 | ||
逻辑斯谛回归(二值分类) | 参数估计(极大似然估计)、S型函数 | |
非参数估计、正则化理论、S型函数 | ||
一个输出层细胞跟几个竞争层细胞相连 | ||
S型函数、梯度下降法 | ||
支持向量机(二值分类) | 二次规化,Lagrange乘数法,对偶问题,最优化,序列最小优化,核技巧 | |
单层感知器 | 只具有线性可分的能力 | |
双隐藏层感知器 | 足以解决任何复杂的分类问题
| |
无监督分类 | 质心 | |
图划分,相对互连度,相对紧密度 | ||
B树,CF三元组 | ||
核心点,密度可达 | ||
参数估计(极大似然估计) | ||
图划分,奇异值求解 。全局收敛 | ||
无导师的竞争学习
| ||
一般线性回归 | 参数估计,最小二乘法,一般不用于分类而用于预测 | |
逻辑斯谛回归(二值分类) | 参数估计(极大似然估计),S型函数
| |
关联规则挖掘 | 频繁1项集,FP-Tree,条件模式基,后缀模式 | |
降维 | 协方差矩阵,奇异值分解 | |
推荐 | 稀疏向量的相似度度量 |
方法细分 | 应用场所 | ||||
参数估计 | 极大似然估计 | 线性回归。假设误差满足均值为0的正态分布,从而转化为最小二乘法 | |||
Logistic回归。梯度下降迭代法求似然函数的极值 | |||||
高斯混合模型。
| |||||
非参数估计 |
| 径向基函数网络 | |||
无参数假设检验 | χ2检验 | 特征词选取,分类回归树的终止条件 | |||
秩和检验 |
| ||||
Pearson相关系数(假设x,y成对地从正态分布中取得) | 基于向量空间模型的文本分类,用户喜好推荐系统 | ||||
Spearman秩相关系数(无参数假设检验) |
| ||||
最优化方法 | 梯度下降法 | 极大似然估计(回归分析、GMM) 支持向量机 线性判别分析 | |||
牛顿迭代法及其变种 | |||||
有约束时通过Lagrange乘数法转换成无约束问题
| |||||
求特征值/特征向量 | 线性判别分析 | 降维 | |||
奇异值分解(仅针对对称矩阵) | 主成分分析 | ||||
谱聚类
| |||||
信息增益 | 特征词选择 | ||||
决策树 | |||||
互信息 | 特征词选择 | ||||
交叉熵 | 特征词选择,稀有事件建模仿真,多峰最优化问题
| ||||
多项式核函数 | SVM RBF网络 | ||||
高斯核函数(径向基函数) | |||||
双极性核函数 | |||||
单极性Sigmoid函数 | Logistic回归 | ||||
BP神经网络 | |||||
协方差 | Pearson相关系数 | ||||
PCA | |||||
高斯混合模型 | |||||
向前向后算法 | |||||
基函数 | 高斯混合模型 | ||||
径向基函数网络 | |||||
平滑算法 | 拉普拉斯平滑 | 贝叶斯分类 隐马尔可夫模型 | |||
Good-Turing平滑 | |||||
隐马尔可夫模型 |
| ||||
|
Cover定理指出:将复杂的模式分类问题非线性地映射到高维空间将比投影到低维空间更可能线性可分。 所以SVM和RBF网络都试图把样本从低维空间映射到高维空间再进行分类。 另一些方法则是把输入样本从高维降到低维后再进行分类或回归分析,如PCA、SOFM网络、LDA、谱聚类,它们认为样本在低维特征空间有更清晰的表达,更容易发现规律。
参考http://www.cnblogs.com/zhangchaoyang