Bootstrap

统计学11——一元线性回归

目录

知识结构

内容精读

1.相关性分析

2.一线线性回归模型 

3.拟合优度

4.显著性检验

5.模型预测

6.残差分析

名词解释


知识结构

内容精读

1.相关性分析

变量是统计学中要研究的主要内容,而变量的个数往往也不唯一。这些变量间的关系也是多样的,我们比较熟悉的便是函数形式的变量关系,诸如$y=kx+b$,其中y是因变量,x是自变量。但在实际中,变量之间的关系往往不是确定的,因为现实中对于一个变量的影响因素往往不唯一,因此对于这种变量间的不确定的数量关系称为相关关系

当数据量很大时,我们可以发现许多变量间存在着一定的规律,回归分析的目的就是探索这种规律并用方程的形式描述出来,因此相关性分析实际上也就是对两个变量之间线性关系的描述与度量。

(1) 变量之间是否存在线性关系

进行回归分析的前提是研究的变量间存在线性的关系,否则回归方程的建立是没有意义的。对于初步关系的判断可以借助散点图进行。

上图中,分别是正线性相关(左上)、负线性相关(右上)、非线性相关(左下)、不相关(右下)的散点图。可以看出若两个变量之间存在线性关系,散点的分布是在直线方程的上下浮动的。 

(2)相关系数

在确定自变量与因变量间存在线性关系后,就要计算相关系数的大小,以此判断变量间的相关程度。

$$r=\frac{n\sum{xy}-\sum{x}\sum{y}} {\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}$$

r就叫做线性相关系数或Pearson相关系数。r的取值范围为[-1,1],当r<0时变量间呈负相关,当r>0时变量间呈正相关。r=-1或1时,说明两变量呈完全线性相关,r=0时两变量没有线性关系,|r|越接近1表明相关性越强。

|r|相关程度
$\geqslant$0.8高度相关
$0.5\leqslant  <0.8$中度相关
$0.3\leqslant  <0.5$低度相关
$<0.3$不相关

 (3)相关系数显著性检验

一般情况下,总体相关系数$\rho$是未知的,通常将样本相关系数r当做总体的近似值,但由于抽样的误差,需要对样本相关系数能说明总体相关系数的可靠程度进行检验,也就是显著性检验。

  • 提出假设
    $H_{0}:\rho=0;H_{1}:\rho\neq0$
  • 计算统计量
    $t=|r|\sqrt{\frac{n-2} {1-r^2}}$
  • 决策
    当$|t|>t_{\alpha/2}$时,拒绝原假设,表明两个变量间存在显著的线性关系。

2.一线线性回归模型 

所为一元线性,就是只包含一个自变量与一个因变量的回归模型。可以表示为:

$$y=\beta_{0}+\beta_{1}x+\varepsilon$$

其中$\varepsilon$是误差项的随机变量,即不能由x,y间的线性关系所解释的变异性。

对于一元线性模型,有如下几个假定:

  • x,y之间有线性关系。
  • 在重复抽样中,自变量x的取值是固定的,而非随机的。
  • $E(\varepsilon)=0$。
  • 对所有x值,$D(\varepsilon)$都相同。
  • $\varepsilon~N(0,\sigma^2)$ 。

 最小二乘估计

 同样总体的参数$\beta_{0},\beta_{1}$一般是未知的,需要用样本数据区估计,用样本统计量$\hat{\beta}_{0},\hat{\beta}_{1}$来代替总体参数。这时就需要用到最小二乘法,最小二乘法是根据因变量的观测值$y_{i}$与估计值$\hat{y}_{i}$之间的离差平方和达到最小来估计$\beta_{0}$和$\beta_{1}$的方法。

$$\hat{\beta}_{1}=\frac{n\sum_{i=1}^{n}x_{i}y_{i}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}} {n\sum_{i=1}^{n}x_{i}^2-(\sum_{i=1}^{n}x_{i})^2}=\frac{\sum{(y_{i}-\bar{y})(x_{i}-\bar{x})}} {\sum{(x_{i}-\bar{x})^2}}$$

$$\beta_{0}=\bar{y}-\hat{\beta}_{1}\bar{x}$$

因此回归方程$\hat{y}_{i}=\hat{\beta}_{0}+\hat{\beta}_{1}x_{i}$的一个特征就是通过点$(\bar{x},\bar{y})$。

3.拟合优度

 在建立回归方程后,可以通过方程依据x的取值对因变量进行估计或预测,这个预测的精度就取决于回归直线对观测数据的拟合程度,判定系数$R^2$则是对估计方程拟合优度的度量。

这里同样涉及到三个平方和:

  • 总平方和$SST=\sum{(y_{i}-\bar{y})^2}$
  • 回归平方和$SSR=\sum{(\hat{y}_{i}-\bar{y})^2}$
  • 残差平方和$SSE=\sum{(y_{i}-\hat{y}_{i})^2}$

$$R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}$$

对于判定系数,$R^2$越接近于1,说明回归直线的拟合程度越好,回归直线与各观测点越接近。在一元回归中,相关系数r实际上是判定系数的平方根。这也说明了相关系数可以从另一个角度说明回归直线的拟合度,|r|越接近于1,表明回归直线对观测数据的拟合程度越好。

ps:用r说明回归直线的拟合优度要谨慎,因为r的值总是大于$R^2$。例如r=0.5时,$R^2$=0.25,实际上只解释了总变差的25%。

 判定系数与相关系数可以度量回归直线的拟合程度,而残差平方和可以说明实际观测值$y_{i}$与回归估计值$\hat{y}_{i}$之间的差异程度。

估计标准误差是均方残差的平方根,$s_{e}=\sqrt{MSE},是排除x对y的线性影响后,y随机波动大小的一个估计量。$s_{e}$越小,回归直线对各观测点的代表性就越好,若各观测点全部落在直线上,则$s_{e}=0$。

4.显著性检验

(1)线性关系检验

 该检验是检验自变量x与因变量y之间的线性关系是否显著。

$$F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}~F(1,n-2)$$

对于假设$H_{0}:\beta_{1}=0$,若F >F_{\alpha},则拒绝原假设,认为两变量间的线性关系是显著的。

(2)回归系数检验

 回归系数检验是要检验自变量对因变量的影响是否显著。对$\hat{\beta}_{1}$,其服从正态分布,且$\hat{\beta}_{1}=\beta_{1}$

$\hat{\beta}_{1}$的估计标准差为:

$$s_{\hat{\beta}_{1}}=\frac{s_{e}} {\sqrt{\sum{x_{i}^2}-\frac{1}{n} (\sum{x_{i}})^2 }}$$

其中因为$\sigma$未知,故用$s_{e}$替代。

$$t=\frac{\hat{\beta}_{1}-\beta_{1}} {s_{\hat{\beta}_{1}}}$$

对于假设$H_{0}:\beta_{1}=0,H_{1}:\beta_{1}\neq0$

若$|t|>t_{\alpha/2}$,则拒绝原假设,表明自变量x对因变量y的影响是显著的。否则表明二者不存在显著的线性关系。

5.模型预测

(1)点估计

所谓点估计,就是对于特定的值$x_{0}$,根据方程求出对应的y值。

(2)区间估计

区间估计就是对于$x_{0}$,出y的一个取值的估计区间,这一区间叫做预测区间

置信区间估计

首先计算$\hat{y}_{0}$的标准差:

$$s_{\hat{y}_{0}}=s_{e}\sqrt{\frac{1} {n}+\frac{(x_{0}-\bar{x})^2} {\sum_{i=1}^{n}(x_{i-\bar{x}})^2} }$$

由此得到$E(y_{0})$在$1-\alpha$置信水平下的置信区间:

$$\hat{y}_{0}\pm{t_{\alpha/2}s_{\hat{y_{0}}} }$$

预测区间估计

 $$s_{\hat{y}_{0}}=s_{e}\sqrt{1+\frac{1} {n}+\frac{(x_{0}-\bar{x})^2} {\sum_{i=1}^{n}(x_{i-\bar{x}})^2} }$$

 与置信区间相比,预测区间的式子根号里多了一个1,因此对于同一个$x_{0}$,两个区间的宽度是不同的,预测区间要宽一点。

 6.残差分析

在回归模型中,假定$\varepsilon$的期望是0,方差相等且服从正态分布的一个随机变量。如果关于$\varepsilon$的假定不成立,那么所做的一切可能都是徒劳。于是为了确定假定是否成立,要进行残差分析。

第i个观测值的残差为$e_{i}=y_{i}-\hat{y}_{i}$

最直观的方法就是观察残差图,下图中左边的为假定成立的,残差都分布在0附近且分布均匀,右边为不满足假定的,残差随着x的变化而变化。

对于正态性检验也可以使用标准化残差, $z_{e_{i}}=\frac{e_{i}} {s_{e}}$,如果残差服从正态分布,那么标准化残差也应该服从,即应大约有95%的标准化残差在-2~2之间。

名词解释

回归分析:回归分析是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法,通过回归分析,可以寻求变量间联系的具体数学形式,在变量因果关系分析的基础上研究其中的自变量的变动对因变量的具体影响,可以根据自变量的给定值去估计和预测因变量的平均值。

回归模型:描述因变量y如何依赖于自变量x和误差项:的方程;一元线性回归模型可表示为:

$$y=\beta_{0}+\beta_{1}x+\varepsilon$$

在一元线性回归模型中,y是x的线性函数$\beta{0}+\beta_{1}x$部分加上误差项$\varepsilon$;$\beta_{0}+\beta_{1}x$部分反映了由于住的变化而引起的y的线性变化;$\varepsilon$是被称为误差项的随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。$\beta_{0}$和$\beta_{1}$称为模型的参数。

回归方程:根据回归模型的假定,$\varepsilon$的期望等于0,因此y的期望值$E(y)=\beta_{0}+\beta_{1}x$,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程为回归方程。

最小平方法:对于第i个x值,估计的回归方程可表示为:$\hat{y}_{i}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{i}$最小平方法也称最小二乘法,通过使因变量的观测值$y_{i}$与估计值$\hat{y}_{i}$,之间的离差平方和达到最小来估计$\beta_{0}$和$\beta_{1}$的方法。

估计标准误差:估计的标准误是度量实际观测点在直线周围散布状况的一个统计量,是均方残差 MSE的平方根,用$s_{e}$表示。估计标准误差$\varepsilon$是对误差项:的标准差$\sigma$的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量;反映了用估计的回归方程预测因变量y时预测误差的大小。

;