标签:
这本《例解回归分析第5版》属于统计学精品译丛系列,这个系列的书都非常不错,以下是该书的阅读笔记
一、回归分析的步骤
1.问题陈述
是指明确要分析研究的问题
2.选择相关变量
选择用于解释因变量的自变量
3.收集数据
收集的数据按照取值情况可以分为定量数据或定性数据,如果所有的自变量均为定性数据,此时的回归分析就是方差分析,如果自变量既有定性变量也有定量变量,此时的回归分析称为协方差分析
4.模型设定
根据专业知识假定一个模型的形式,模型可以分为线性和非线性,有些非线性模型通过变量变换可以转化为线性模型。
回归分析的分类
单变量回归:只有一个因变量,且为定量数据
多变量回归:有两个或以上的因变量,且为定量数据
简单回归:只有一个自变量
多元回归:两个或以上自变量
线性回归:方程关于所有回归系数都是线性的,或者通过变量变换之后是线性的
非线性回归:方程对于某些回归系数或某些自变量是非线性的,并且无法通过变量变换转化为线性
方差分析:所有自变量都是定性变量
协方差分析:自变量既有定量变量,也有定性变量
Logistic回归:因变量为定性变量
5.选择拟合方法
模型确定之后,需要据此选择模型系数的拟合方法,最常用的是最小二乘法和加权最小二乘法,但是最小二乘法在某些假设条件下才是最佳估计,当这些假设条件不满足时,其他估计方法会优于最小二乘法,例如极大似然法、岭回归法、主成分回归法等
6.模型拟合
根据选定的模型和拟合方法,将收集的数据进行拟合。这里有两个概念:
拟合值:用已收集的数据代入模型进行计算出的值
预测值:用任何数据代入模型进行计算出的值,但是不建议使用超过自变量取值范围的值进行计算。
7.模型的评价和选择
模型的有效性依赖于某些假设,我们需要不断地调整模型,以使模型满足这些假设达到最优效果,整个过程是一个迭代的过程。
8.回归模型的应用
在拟合最佳模型之后,我们将应用此模型进行预测、或者评估单个变量的重要性、了解变量之间的相互关系,总之,作为一种分析技术,大多数情况下确定回归方程使其主要目标,但是拟合期间产生的任何结果,也都是有用的。
================================================
二、简单线性回归
只包含一个因变量Y和一个自变量X的回归为简单线性回归
Y=β0+β1X+ε
1.协方差与相关系数
对Y偏离其均值和X偏离其均值的乘积,可以计算二者的协方差,协方差会受到度量单位的影响,因此在计算之前,先对数据进行标准化,即Z变换,标准化之后的Z变量也称为Z分数,用该变量计算的协方差就是Y与X的相关系数,相关系数具有对称性,因此相关系数矩阵也具有对称性。
相关系数不会受到度量单位的影响,并且值在-1与+1之间,±符号代表相关方向,数值大小代表线性关系强度,注意这里是线性关系,也就是说相关系数只是表示线性相关性,相关系数为0,只是表示二者没有线性相关关系,但是有可能有非线性相关关系。
从相关系数的计算公式可以看出,它是非常容易受到离群值的影响的,因此在使用相关系数时,一定要考察散点图。
2.参数估计
线性回归一般采用最小二乘法估计参数,所得到的参数称为最小二乘估计,所得的直线称为最小二乘回归直线。最小二乘法的基本思路是:我们要寻找一条直线,使所有点到该直线的铅直距离的平方和最小,其中铅直距离代表随机误差。注意这里用到的是铅直距离,也可以用点到直线的垂直距离(即最短距离,此时得到的直线称为正交回归直线)。
由于我们总能找到使铅直距离平方和达到最小的直线,因此最小二乘回归直线总是存在的,但有时并不唯一。可以证明,最小二乘残差之和为0。
3.假设检验
线性回归的假设检验可以分为4个
(1)对回归系数β1是否为0进行检验
这是最主要的检验,如果X可以对Y进行预测,那么其回归系数必定不为0,因此我们首先需要对其回归系数是否为0进行假设检验,假设的前提是残差相互独立且服