【n】不用理会,是我自己的书的页数,可能会有不同哈!逢考必过!冲冲冲!
导论
1. 计量经济学研究步骤【8】
- 模型设定——确定变量和数学关系式
- 一个完整的计量经济模型包括:经济变量、待确定参数、随机扰动项(核心)
-
估计参数——分析变量间的数量关系
-
模型检验——检验所得结论的可靠性
- 经济意义检验
- 统计推断检验
- 计量经济学检验
- 模型预测检验
- 模型应用——作经济分析和经济预测
- 经济结构分析
- 经济预测
- 政策评价
- 检验与发展经济理论
2. 变量【13】
- 解释变量X和被解释变量Y
- 内生变量Y和外生变量X
3. 数据类型【14】
- 时间序列数据
- 截面数据
- 面板数据
- 虚拟变量数据
第二章 简单线性回归模型
1. 相关系数特点4【22】
- 取值[-1,1]
- r=0表明X和Y没有线性相关关系
- 0<|r|<1,X和Y存在一定的线性相关关系。r>0正相关,r<0负相关
- |r|=1,X和Y完全线性相关;r=1:完全正相关;r=-1:完全负相关
2. 使用相关系数分析r注意4【22】
- X和Y是互相对称的随机变量。r(xy)=r(yx)
- 只反映变量间线性相关程度,不能说明非线性相关关系
- 相关系数不能确定因果关系,也不能说明相关关系具体接近哪条直线
- r从总体抽取随机样本观测值X和Y计算出来,是对总体相关系数的估计。不确定,随抽样而变动。
3. 回归的概念【23】
回归是关于一个变量(被解释变量)对另一个或多个变量(解释变量)依存关系的研究,是用适当的数学模型去近似地表达或估计变量之间的平均变化情况。目的是根据解释变量的数值去估计被解释变量的总体平均值。
4. 总体回归PRF、样本回归SRF【26、30】
-
总体回归函数
- 将被解释变量Y的条件期望表现为解释变量X的函数
- E(Y|Xi)=f(Xi)=β1+β2Xi
- Yi=E(Y|Xi)+ui=β1+β2Xi+ui——个别值表示方式
-
样本回归函数
-
把被解释变量Y的样本条件均值表示为解释变量X的某种函数
-
Yi=β1+β^2Xi
-
Yi=β1+β2Xi+ei(剩余项/残差项)——个别值表示方式
-
5. 总体回归、样本回归区别【30】
总体回归未知但确定;参数是确定的参数;ui不可直接观测
样本回归是随抽样波动而变化的,可以有多条;参数关于随抽样而变化的随机变量;ei只要估计出样本回归的参数就可以计算数值
6. 简单线性回归模型参数基本假定3+5【32】
- 对变量和模型的假定
- 假定解释变量Xi是确定性变量,非随机
- 假定模型中的变量没有测量误差
- 假定模型对变量和函数形式正确
- 对随机扰动项ui统计分布的假定(高斯假定/古典假定)
- 零均值假定E(ui|Xi)=0
- 同方差假定Var(ui|Xi)=σ^2
- 无自相关假定Cov(ui,uj)=0
- 随机扰动项ui与解释变量Xi不相关Cov(ui,Xi)=0
- 正态性假定ui~N(0,σ^2)
- 满足古典假定的线性回归模型称为古典线性回归模型
7. 普通最小二乘法【33】
- 直接目的:确定总体回归函数Yi=β1+β2Xi+ui,要用样本信息建立的样本回归函数“尽可能接近”地去估计总体回归函数。
8. 最小二乘准则【33】
使估计的剩余平方和∑(Yi-Yi)2最小的原则确定样本回归函数
min∑(ei)^2
9. 普通最小二乘估计OLS数学性质5【35】
-
样本回归线通过均值
-
估计值Y^i的均值等于实际Yi的均值
-
剩余项ei的均值为0
-
被解释变量Y^i与剩余项ei不相关
-
解释变量Xi与剩余项ei不相关
(不相关 => Cov=0)
10. OLS统计性质【38】
(一)参数估计量的评价标准
- 无偏性(E(β^)=β)
- 有效性(一个估计量不仅无偏还具有最小方差性,则称这个估计量为有效估计量)
- 一致性(当样本容量趋于无穷大,估计量β的抽样分布依概率收敛于总体参数的真实值β,则β为一直估计量)
(二)OLS估计量的统计特性
- 线性特性
- 无偏性——根据古典假定E(ui)=0成立推出——OLS估计式式无偏估计量
- 有效性——根据同方差+无自相关假定成立推出——Var、标准误差SE=sqrt(Var)——最小方差性
——古典假定下,OLS估计量β1,β2是总体参数β1、β2的最佳线性无偏估计量BLUE
11. 拟合优度定义
所估计的样本回归函数对样本观测数据拟合的优劣程度。
12. 总变差分解【43】
TSS = ESS + RSS
TSS:总变差,被解释变量Y的样本观测值预期平均值的离差平方和∑(Yi-Y_)2=∑yi2
ESS:由回归解释的平方和,被解释变量Y的样本估计值与其平均值的离差平方和∑(Yi-Y_)2=∑yi2
RSS:残差平方和,被解释变量观测值与估计值之差的平方和∑(Yi-Yi)2=∑e^2
13. 可决系数的含义、特点3、与相关系数的关系【43、45】
(一)含义
样本回归作出解释的离差平方和在总离差平方和中的比重,可作为综合度量回归模型对样本观测值拟合优度的指标
R^2=ESS/TSS=1-RSS/TSS
(二)特点
- 可决系数是非负的统计量
- 取值范围[0,1]
- R^2是样本观测值的函数,是随抽样而变动的随机变量
(三)与r的关系
在一元线性回归中,可决系数R^2在数值上是简单线性相关系数r的平方。
可决系数:就估计的回归模型而言,度量回归模型对样本观测值的拟合程度,即是模型中解释变量对被解释变量变差的解释程度。度量的是解释变量与被解释变量不对称的因果关系,是在回归分析的基础上说明X对Y的变差的解释比例,并不说明Y对X的解释。非负性[0,1]
相关系数:就两个变量而言,说明两个变量的线性依存程度。是X与Y对称的相关关系,不涉及X和Y的因果关系。可正可负,[-1,1]
在计量经济学中,可决系数更有意义。
14. 回归系数的假设检验和区间估计【46、50】
方法:找点估计式,再做标准化变换
σ^2已知/大样本—>正态分布z
σ^2未知且小样本—>t分布
假设检验:根据已知的样本观测值判断它是否与对总体参数作的某一个假设相一致
区间估计:怎么样的区间包含总体参数真实值以及可靠程度问题。因为估计参数是随机变量,因此区间也是随机区间,只是说明再重复抽样中,在1-α的概率基础上,像这样的区间构造许多次,从长远看平均地说,这些区间中将有n%包含着估计参数的真实值。
15. 思考题:为什么可决系数可以度量模型的拟合优度?在简单线性回归中它与对参数的t检验的关系是什么?【68】
可决系数是回归平方和占总离差平方和的比重,即由样本回归作出解释的离差平方和在总离差平方和中占的比重,如果样本回归线对样本观测值拟合程度好,各样本观测点与回归线靠得越近,由样本回归作出解释的离差平方和在总离差平方和中占的比重也将越大,反之拟合程度越差,这部分所占比重就越小。所以可决系数可以作为综合度量回归模型对样本观测值拟合优度的指标。 在简单线性回归中,可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,X对Y的解释能力越强,模型拟合优度越好。对参数的t检验是判断解释变量X是否是被解释变量Y的显著影响因素。二者的目的作用是一致的。
16. 主要公式【67】
第三章 多元线性回归模型
1. 线性是对参数而言的【77】
多元线性回归模型是指对各个回归参数而言是线性的,而对于变量则可以是线性的,也可以不是线性的。
2. 多元回归模型的古典假定【80】
-
零均值假定
-
同方差和无自相关假定
-
随机扰动项与解释变量不相关假定
-
无多重共线性假定——各解释变量之间不存在线性关系
-
正态性假定——ui~N(0,σ^2)
多元回归函数参数的最小二乘估计也具有线性特质、无偏性、有效性。
3. 多重可决系数【87】
TSS = ESS + RSS
(n-1) (k-1) (n-k)
TSS:解释变量观测值总变差的大小
ESS:被解释变量观测值总变差中由多个解释变量作出解释的那部分变差
RSS:被解释变量观测值总变差中未被列入模型的解释变量解释的那部分变差
R^2 = ESS/TSS = (TSS-RSS)/TSS = 1-RSS/TSS
R^2介于[0,1]之间,越接近1,模型对数据的拟合程度越好。
4. 修正的可决系数、与可决系数的关系【88、89】
原因:模型中解释变量个数是不减函数,在样本容量不变时,随着模型中解释变量的增加,TSS不会改变,而解释了的ESS可能会增大,多重可决系数R^2也会变大。当被解释变量相同而解释变量个数不同时,这给运用多重可决系数去比较两个模型的拟合程度会带来缺陷。
R_^2 = 1 - (RSS/(n-k)) / (TSS/(n-1)) = 1-(1-R^2)[(n-1)/(n-k)]
当修正的可决系数为负值,规定=0
可决系数越大,说明列入模型中的解释变量对被解释变量的联合影响程度越大,并非说明模型中各个解释变量对被解释变量的影响程度也大。
5. 回归方程的# 导论
1. 计量经济学研究步骤【8】
- 模型设定——确定变量和数学关系式
- 一个完整的计量经济模型包括:经济变量、待确定参数、随机扰动项(核心)
-
估计参数——分析变量间的数量关系
-
模型检验——检验所得结论的可靠性
- 经济意义检验
- 统计推断检验
- 计量经济学检验
- 模型预测检验
- 模型应用——作经济分析和经济预测
- 经济结构分析
- 经济预测
- 政策评价
- 检验与发展经济理论
2. 变量【13】
- 解释变量X和被解释变量Y
- 内生变量Y和外生变量X
3. 数据类型【14】
- 时间序列数据
- 截面数据
- 面板数据
- 虚拟变量数据
第二章 简单线性回归模型
1. 相关系数特点4【22】
- 取值[-1,1]
- r=0表明X和Y没有线性相关关系
- 0<|r|<1,X和Y存在一定的线性相关关系。r>0正相关,r<0负相关
- |r|=1,X和Y完全线性相关;r=1:完全正相关;r=-1:完全负相关
2. 使用相关系数分析r注意4【22】
- X和Y是互相对称的随机变量。r(xy)=r(yx)
- 只反映变量间线性相关程度,不能说明非线性相关关系
- 相关系数不能确定因果关系,也不能说明相关关系具体接近哪条直线
- r从总体抽取随机样本观测值X和Y计算出来,是对总体相关系数的估计。不确定,随抽样而变动。
3. 回归的概念【23】
回归是关于一个变量(被解释变量)对另一个或多个变量(解释变量)依存关系的研究,是用适当的数学模型去近似地表达或估计变量之间的平均变化情况。目的是根据解释变量的数值去估计被解释变量的总体平均值。
4. 总体回归PRF、样本回归SRF【26、30】
-
总体回归函数
- 将被解释变量Y的条件期望表现为解释变量X的函数
- E(Y|Xi)=f(Xi)=β1+β2Xi
- Yi=E(Y|Xi)+ui=β1+β2Xi+ui——个别值表示方式
-
样本回归函数
-
把被解释变量Y的样本条件均值表示为解释变量X的某种函数
-
Yi=β1+β^2Xi
-
Yi=β1+β2Xi+ei(剩余项/残差项)——个别值表示方式
-
5. 总体回归、样本回归区别【30】
总体回归未知但确定;参数是确定的参数;ui不可直接观测
样本回归是随抽样波动而变化的,可以有多条;参数关于随抽样而变化的随机变量;ei只要估计出样本回归的参数就可以计算数值
6. 简单线性回归模型参数基本假定3+5【32】
- 对变量和模型的假定
- 假定解释变量Xi是确定性变量,非随机
- 假定模型中的变量没有测量误差
- 假定模型对变量和函数形式正确
- 对随机扰动项ui统计分布的假定(高斯假定/古典假定)
- 零均值假定E(ui|Xi)=0
- 同方差假定Var(ui|Xi)=σ^2
- 无自相关假定Cov(ui,uj)=0
- 随机扰动项ui与解释变量Xi不相关Cov(ui,Xi)=0
- 正态性假定ui~N(0,σ^2)
- 满足古典假定的线性回归模型称为古典线性回归模型
7. 普通最小二乘法【33】
- 直接目的:确定总体回归函数Yi=β1+β2Xi+ui,要用样本信息建立的样本回归函数“尽可能接近”地去估计总体回归函数。
8. 最小二乘准则【33】
使估计的剩余平方和∑(Yi-Yi)2最小的原则确定样本回归函数
min∑(ei)^2
9. 普通最小二乘估计OLS数学性质5【35】
-
样本回归线通过均值
-
估计值Y^i的均值等于实际Yi的均值
-
剩余项ei的均值为0
-
被解释变量Y^i与剩余项ei不相关
-
解释变量Xi与剩余项ei不相关
(不相关 => Cov=0)
10. OLS统计性质【38】
(一)参数估计量的评价标准
- 无偏性(E(β^)=β)
- 有效性(一个估计量不仅无偏还具有最小方差性,则称这个估计量为有效估计量)
- 一致性(当样本容量趋于无穷大,估计量β的抽样分布依概率收敛于总体参数的真实值β,则β为一直估计量)
(二)OLS估计量的统计特性
- 线性特性
- 无偏性——根据古典假定E(ui)=0成立推出——OLS估计式式无偏估计量
- 有效性——根据同方差+无自相关假定成立推出——Var、标准误差SE=sqrt(Var)——最小方差性
——古典假定下,OLS估计量β1,β2是总体参数β1、β2的最佳线性无偏估计量BLUE
11. 拟合优度定义
所估计的样本回归函数对样本观测数据拟合的优劣程度。
12. 总变差分解【43】
TSS = ESS + RSS
TSS:总变差,被解释变量Y的样本观测值预期平均值的离差平方和∑(Yi-Y_)2=∑yi2
ESS:由回归解释的平方和,被解释变量Y的样本估计值与其平均值的离差平方和∑(Yi-Y_)2=∑yi2
RSS:残差平方和,被解释变量观测值与估计值之差的平方和∑(Yi-Yi)2=∑e^2
13. 可决系数的含义、特点3、与相关系数的关系【43、45】
(一)含义
样本回归作出解释的离差平方和在总离差平方和中的比重,可作为综合度量回归模型对样本观测值拟合优度的指标
R^2=ESS/TSS=1-RSS/TSS
(二)特点
- 可决系数是非负的统计量
- 取值范围[0,1]
- R^2是样本观测值的函数,是随抽样而变动的随机变量
(三)与r的关系
在一元线性回归中,可决系数R^2在数值上是简单线性相关系数r的平方。
可决系数:就估计的回归模型而言,度量回归模型对样本观测值的拟合程度,即是模型中解释变量对被解释变量变差的解释程度。度量的是解释变量与被解释变量不对称的因果关系,是在回归分析的基础上说明X对Y的变差的解释比例,并不说明Y对X的解释。非负性[0,1]
相关系数:就两个变量而言,说明两个变量的线性依存程度。是X与Y对称的相关关系,不涉及X和Y的因果关系。可正可负,[-1,1]
在计量经济学中,可决系数更有意义。
14. 回归系数的假设检验和区间估计【46、50】
方法:找点估计式,再做标准化变换
σ^2已知/大样本—>正态分布z
σ^2未知且小样本—>t分布
假设检验:根据已知的样本观测值判断它是否与对总体参数作的某一个假设相一致
区间估计:怎么样的区间包含总体参数真实值以及可靠程度问题。因为估计参数是随机变量,因此区间也是随机区间,只是说明再重复抽样中,在1-α的概率基础上,像这样的区间构造许多次,从长远看平均地说,这些区间中将有n%包含着估计参数的真实值。
15. 思考题:为什么可决系数可以度量模型的拟合优度?在简单线性回归中它与对参数的t检验的关系是什么?【68】
可决系数是回归平方和占总离差平方和的比重,即由样本回归作出解释的离差平方和在总离差平方和中占的比重,如果样本回归线对样本观测值拟合程度好,各样本观测点与回归线靠得越近,由样本回归作出解释的离差平方和在总离差平方和中占的比重也将越大,反之拟合程度越差,这部分所占比重就越小。所以可决系数可以作为综合度量回归模型对样本观测值拟合优度的指标。 在简单线性回归中,可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,X对Y的解释能力越强,模型拟合优度越好。对参数的t检验是判断解释变量X是否是被解释变量Y的显著影响因素。二者的目的作用是一致的。
16. 主要公式【67】
第三章 多元线性回归模型
1. 线性是对参数而言的【77】
多元线性回归模型是指对各个回归参数而言是线性的,而对于变量则可以是线性的,也可以不是线性的。
2. 多元回归模型的古典假定【80】
-
零均值假定
-
同方差和无自相关假定
-
随机扰动项与解释变量不相关假定
-
无多重共线性假定——各解释变量之间不存在线性关系
-
正态性假定——ui~N(0,σ^2)
多元回归函数参数的最小二乘估计也具有线性特质、无偏性、有效性。
3. 多重可决系数【87】
TSS = ESS + RSS
(n-1) (k-1) (n-k)
TSS:解释变量观测值总变差的大小
ESS:被解释变量观测值总变差中由多个解释变量作出解释的那部分变差
RSS:被解释变量观测值总变差中未被列入模型的解释变量解释的那部分变差
R^2 = ESS/TSS = (TSS-RSS)/TSS = 1-RSS/TSS
R^2介于[0,1]之间,越接近1,模型对数据的拟合程度越好。
4. 修正的可决系数、与可决系数的关系【88、89】
原因:模型中解释变量个数是不减函数,在样本容量不变时,随着模型中解释变量的增加,TSS不会改变,而解释了的ESS可能会增大,多重可决系数R^2也会变大。当被解释变量相同而解释变量个数不同时,这给运用多重可决系数去比较两个模型的拟合程度会带来缺陷。
R_^2 = 1 - (RSS/(n-k)) / (TSS/(n-1)) = 1-(1-R^2)[(n-1)/(n-k)]
当修正的可决系数为负值,规定=0
可决系数越大,说明列入模型中的解释变量对被解释变量的联合影响程度越大,并非说明模型中各个解释变量对被解释变量的影响程度也大。
5. 回归方程的显著性检验(F-检验)【90】
对模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著作出判断。
说明列入模型的各个解释变量联合起来对被解释变量有显著影响。
F = (ESS/(k-1))/(RSS/(n-k)) ~F(K-1,n-k)
6. F与t统计量关系【91】
**在一元回归情形下,**不存在解释变量联合影响的整体检验问题,F检验和t检验一致。
F=t^2,F统计量等于t统计量的平方。
7. F与R^2的关系【91】
模型对观测值的拟合程度越高,模型总体线性关系的显著性越强。
F=(n-k)/(k-1)*(R2)/(1-R2)
可决系数=0,F=0;
可决系数越大,F越大;
可决系数=1,F趋于无穷大。
F检验和可决系数具有一致性。但可决系数和修正可决系数只能提供对拟合优度的度量,而久就要达到多大才算模型通过了检验,没有给出确定的界限;F检验可以在给定显著性水平下给出结论。
8. 回归参数的显著性检验——t检验【91】
对每个解释变量进行显著性检验。目的在于分别检验当其他解释变量不变时,该回归系数对应的解释变量是否对被解释变量有显著性影响。
9. 多元线性回归分析的目的【91】
- 获得较高拟合优度的模型
- 寻求方程整体的显著性
- 对各个回归参数作出有意义的估计
10. 公式大全【103】
11. 思考题:多元线性回归分析中,F检验与t检验的关系是什么?为什么在做了F检验以后还要作t检验?
在多元回归中,t检验是分别检验当其他解释变量保持不变时,各个解释变量X对应变量Y是否有显著影响。F检验是在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。 F检验是对多元回归模型方程整体可靠性的检验,而多元线性回归分析的目的,不仅是要寻求方程整体的显著性,也要对各个参数作出有意义的估计。方程整体线性关系显著并不一定表示每个解释变量对被解释变量的影响是显著的,因此,还必须分别对每个回归系数逐个地进行t检验。
第四章 多重共线性
1. 引例【113】
2. 产生多重共线性背景4【115】
- 经济变量之间具有共同变化趋势
- 模型中包含滞后变量
- 利用截面数据建立模型也可能出现多重共线性
- 样本数据自身的原因
3. 完全多重共线性产生的后果2【116】
- 参数的估计值不确定
- 参数估计值的方差无限大
4. 不完全多重共线性下产生的后果4【117】
-
数估计值的方差与协方差增大
随着共线性增加,r趋于1,两个参数估计量的方差也将增大,其协方差在绝对值上也将增大。
方差扩大因子VIF=1/(1-r^2)
-
对参数区间估计时,置信区间趋于变大
-
严重多重共线性时,假设检验容易给出错误的判断
-
当多重共线性严重时,可能造成可决系数R^2较高,经F检验的参数联合显著性也很高,但对各个参数单独的t检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。
但如果研究目的仅在于预测Y,而各个解释变量X之间的多重共线性关系的性值在未来继续保持,此时多重共线性问题可能不是严重问题。
5. 多重共线性的检验4【120】
-
简单相关系数检验法——r > 0.8 => 存在较严重的多重相关性(充分条件)
-
方差扩大(膨胀)因子法
分别以每个解释变量为被解释变量,作于其他解释变量的回归,称为辅助回归。
VIFj >= 10,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。
-
直观判断法
- 当增加或剔除一个解释变量或改变一个观测值时,回归参数的估计值较大变化,回归方程可能存在严重的多重共线性
- 一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验
- 有些解释变量的回归系数所带正负号与定性分析结果违背时
- 模型的可决系数较高,F检验显著,但某些重要解释变量的偏回归系数t检验不显著,可能会存在多重共线性问题
-
逐步回归检测法
每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。
6. 多重共线性的补救措施3(6+1+1)【122】必考
(一)修正多重共线性的经验方法
- 剔除变量法
- 增大样本容量
- 变换模型形式——差分法,但会丢失一些信息
- 利用非样本先验信息
- 横截面数据与时序数据并用
- 变量变换
- 计算相对指标
- 将名义数据转换为实际数据
- 将小类指标合并成大类指标
- 将总量指标进行对数变换
(二)逐步回归法
先用被解释变量对每一个所考虑的解释变量做简单回归,然后对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐个引入其余的解释变量。若新变量的引入改进了修正的可决系数和F检验,其他回归参数的t检验在统计上仍显著,则考虑保留;若新变量的引入未能明显地改进修正的可决系数和F检验,t检验未带来影响,则变量多余;若若新变量的引入未能明显地改进修正的可决系数和F检验,且显著影响了其他回归参数估计值的数值或符号,致使t检验未通过,则说明出现严重的多重共线性。保留修正可决系数改进最大的,且不影响原有变量显著性的模型。
(三)岭回归法
7. 主要公式【131】
第五章 异方差性
1. 异方差公式【137】
异方差性是被解释变量观测值的分散程度随解释变量的变化而变化
Var(ui) = σi2=σ2f(Xi)
2. 产生异方差的原因3【137】
- 模型设定误差
- 测量误差的变化
- 截面数据中总体各单位的差异
3. 异方差性的后果3(2+2+1)【139】
-
对参数估计式统计特性的影响
- 参数的OLS估计仍然具有无偏性
- 参数的OLS估计的方差不再又有效
(OLS估计仍保持线性无偏性和一致性,但失去了有效性,即不再是最小方差)
-
对模型假设检验的影响
- 严重破坏t-检验和F-检验的有效性
- 在古典假定下用来检验假设的统计量可能不再成立
-
对预测的影响
- 无偏
- 无效
4. 异方差性的检验(画图PPT、基本思想、步骤)3【140】
-
图示检验法
- 相关图形分析
- 残差图形分析
-
GQ检验
可用于检验递增性或递减性异方差。
基本思想:将样本分为两部分,分别对两个样本进行回归,比较两个回归的剩余平方和是否有明显差异,以此判断是否存在异方差。
前提条件:只适用于大样本;除了同方差假定不满足外其他假定均满足
步骤:
-
排序:将样本观测值按解释变量𝑋𝑖的大小排序
-
数据分组:将排列在中间的𝑐个(样本个数的 1/5-1/4)观测值删除掉,再将剩余的分为两 个部分,每部分观察值的个数为(n-c)/2
-
提出假设,即 𝐻0:两部分数据的方差相等;𝐻1:两部分数据的方差不相等
𝐻0: 𝜎𝑖 2 = 𝜎 2 , 𝑖 = 1,2, ⋯ , 𝑛 𝐻1: 𝜎1 2 ≤ 𝜎2 2 ≤ ⋯ ≤ 𝜎𝑛 2
-
构造 𝑭 统计量:分别对上述两个部分的观察值作回归,由此得到 的两个部分的残差平方为 ∑𝑒1𝑖^2 和 ∑ 𝑒2𝑖^2 。 ∑𝑒1𝑖^2为前一部分样本回归产生的残差平方和, ∑ 𝑒2𝑖^2 为后一部分样本回归产生的残差平方和。 它们的自由度均为[(n-c)/2]-k, 𝑘 为参数的个数。 在原假设成立的条件下,可导出: 𝐹 ∗ = ∑ 𝑒2𝑖^2 / ∑𝑒1𝑖^2 ~F((n-c)/2-k, (n-c)/2-k)
-
判断。给定显著性水平 𝛼,查 𝐹 分布表得临界值
如果 𝐹 ∗ > 𝐹 𝛼 ,则拒绝原假设,接受备择假设,即模型中的随 机误差项存在异方差。 如果 𝐹 ∗ < 𝐹 𝛼 ,则不拒绝原假设, 认为模型中的随机误差项不存在异 方差。
-
-
White检验
基本思想:**如果存在异方差,则方差σ2与解释变量有关系**,分析σ2是否与解释变量有某些形式的联系以判断方差性。σ2一般是未知的,可以OLS估计的残差平方ei2作为其估计值。在大样本的情况下,作ei^2对常数项、解释变量、解释变量的平方以及其交叉乘积等所构成的辅助回归,利用辅助回归相应的检验统计量,即可判断是否存在异方差性。
不仅能够检验异方差的存在性,同时在多个解释变量的情况下,还能判断出哪一个变量引起的异方差。但是要求是大样本。
缺陷:对于多个解释变量的模型,运用该检验会丧失较多的自由度。
改进:用多元线性回归函数的拟合值Y,作ei2对Y与Y^2的辅助回归。但无法确定由那个Xi引起的。
5. 异方差性的补救措施3【146】
-
对模型变换 ——用sqrt(f(Xi))去除回归模型
基本思想:对原模型进行变换,使得变换后的模型为同方差
-
加权最小二乘法——广义最小二乘法
存在异方差时,方差越小,其样本值偏离均值的程度越小,其观测值应该越受到重视;反之,方差越大,其样本值偏离均值的程度越大,其观测值所起到的作用应当越小。
对样本:对较小的ei2基于较大的权重,对较大的ei2基于较小的权重。
权重w = 1 / σi^2
对模型变换域加权最小二乘法WLS实际上是一致的
- 模型的对数变换
可以降低异方差性的影响
6. 公式大全【157】
第六章 自相关
1. 引例【162】
2. 公式【163】
总体回归模型的随机误差项ui之间存在相关关系。
不满足Cov(ui,uj) = E(ui,uj) = 0
自相关程度可以用自相关系数表示,同r的表达方式。
3. 自相关产生原因【163】
-
经济系统的惯性
-
经济活动的滞后效应
-
数据处理造成的相关
-
蛛网现象:某种商品的供给量受前一期价格影响而表现出来的某种规律性,即呈蛛网状收敛或发散与供需的均衡点。
-
模型设定偏误:模型中省略了某些重要的解释变量或模型函数形式不正确。
4. 自相关的后果4【165】
(一)一阶自回归形式的性质
- 在ut一阶自回归时,随机误差项ui依然满足零均值、同方差的假定
- ut的协方差均不为0
(二)自相关对参数估计的影响
参数无偏,但不是方差最小的
低估真实方差和σ^2
(三)自相关对模型检验的影响
高估t统计量,会夸大所参数的显著性,对本来不重要的解释变量可能误认为重要而被保留。t检验失去意义。
参数的最小二乘估计量无效,F检验和R^2检验不可靠。
(四)自相关对模型预测的影响
置信区间不可靠,降低了预测的精度
5. 自相关的检验【168】
-
图示检验法
-
DW检验法
前提条件
- 解释变量X为非随机的
- 随机误差项为一阶自回归形式
- 线性模型的解释变量中不包含滞后的被解释变量
- 截距项不为0,即β1存在
- 数据序列无缺失项
0-dL、dL-dU、dU-(4-dU)、(4-dU)-(4-dL)、(4-dL)-4
缺点:
- DW有两个不能确定的区域
- n>=15
- 不适应随机误差项具有高阶序列相关的检验
- 有运用的前提条件
-
BG检验(LM检验)
- 基于所分析模型最小二乘估计的残差对解释变量和一定数量滞后残差的辅助回归,如果滞后残差足以解释当前残差的变异,就拒绝误差项无自相关的假设。
- 特点:不限于一阶自相关;适合有滞后被解释变量的情况;滞后长度不能先验确定,可逐次向更高阶检验。
6. 广义差分法【173】
广义差分方程:被解释变量和解释变量均为现期值减去前期值的一部分。如果误差项的自相关形式是AR§,即p阶自相关,则需要使用p阶广义差分。
-
自相关系数的确定
估计—自相关系数=1-DW/2
精确—
- 科克伦-奥克特迭代法
- 德宾两步法
7. 公式大全【181】显著性检验(F-检验)【90】
对模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著作出判断。
说明列入模型的各个解释变量联合起来对被解释变量有显著影响。
F = (ESS/(k-1))/(RSS/(n-k)) ~F(K-1,n-k)
6. F与t统计量关系【91】
**在一元回归情形下,**不存在解释变量联合影响的整体检验问题,F检验和t检验一致。
F=t^2,F统计量等于t统计量的平方。
7. F与R^2的关系【91】
模型对观测值的拟合程度越高,模型总体线性关系的显著性越强。
F=(n-k)/(k-1)*(R2)/(1-R2)
可决系数=0,F=0;
可决系数越大,F越大;
可决系数=1,F趋于无穷大。
F检验和可决系数具有一致性。但可决系数和修正可决系数只能提供对拟合优度的度量,而久就要达到多大才算模型通过了检验,没有给出确定的界限;F检验可以在给定显著性水平下给出结论。
8. 回归参数的显著性检验——t检验【91】
对每个解释变量进行显著性检验。目的在于分别检验当其他解释变量不变时,该回归系数对应的解释变量是否对被解释变量有显著性影响。
9. 多元线性回归分析的目的【91】
- 获得较高拟合优度的模型
- 寻求方程整体的显著性
- 对各个回归参数作出有意义的估计
10. 公式大全【103】
11. 思考题:多元线性回归分析中,F检验与t检验的关系是什么?为什么在做了F检验以后还要作t检验?
在多元回归中,t检验是分别检验当其他解释变量保持不变时,各个解释变量X对应变量Y是否有显著影响。F检验是在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。 F检验是对多元回归模型方程整体可靠性的检验,而多元线性回归分析的目的,不仅是要寻求方程整体的显著性,也要对各个参数作出有意义的估计。方程整体线性关系显著并不一定表示每个解释变量对被解释变量的影响是显著的,因此,还必须分别对每个回归系数逐个地进行t检验。
第四章 多重共线性
1. 引例【113】
2. 产生多重共线性背景4【115】
- 经济变量之间具有共同变化趋势
- 模型中包含滞后变量
- 利用截面数据建立模型也可能出现多重共线性
- 样本数据自身的原因
3. 完全多重共线性产生的后果2【116】
- 参数的估计值不确定
- 参数估计值的方差无限大
4. 不完全多重共线性下产生的后果4【117】
-
数估计值的方差与协方差增大
随着共线性增加,r趋于1,两个参数估计量的方差也将增大,其协方差在绝对值上也将增大。
方差扩大因子VIF=1/(1-r^2)
-
对参数区间估计时,置信区间趋于变大
-
严重多重共线性时,假设检验容易给出错误的判断
-
当多重共线性严重时,可能造成可决系数R^2较高,经F检验的参数联合显著性也很高,但对各个参数单独的t检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。
但如果研究目的仅在于预测Y,而各个解释变量X之间的多重共线性关系的性值在未来继续保持,此时多重共线性问题可能不是严重问题。
5. 多重共线性的检验4【120】
-
简单相关系数检验法——r > 0.8 => 存在较严重的多重相关性(充分条件)
-
方差扩大(膨胀)因子法
分别以每个解释变量为被解释变量,作于其他解释变量的回归,称为辅助回归。
VIFj >= 10,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。
-
直观判断法
- 当增加或剔除一个解释变量或改变一个观测值时,回归参数的估计值较大变化,回归方程可能存在严重的多重共线性
- 一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验
- 有些解释变量的回归系数所带正负号与定性分析结果违背时
- 模型的可决系数较高,F检验显著,但某些重要解释变量的偏回归系数t检验不显著,可能会存在多重共线性问题
-
逐步回归检测法
每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。
6. 多重共线性的补救措施3(6+1+1)【122】必考
(一)修正多重共线性的经验方法
- 剔除变量法
- 增大样本容量
- 变换模型形式——差分法,但会丢失一些信息
- 利用非样本先验信息
- 横截面数据与时序数据并用
- 变量变换
- 计算相对指标
- 将名义数据转换为实际数据
- 将小类指标合并成大类指标
- 将总量指标进行对数变换
(二)逐步回归法
先用被解释变量对每一个所考虑的解释变量做简单回归,然后对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐个引入其余的解释变量。若新变量的引入改进了修正的可决系数和F检验,其他回归参数的t检验在统计上仍显著,则考虑保留;若新变量的引入未能明显地改进修正的可决系数和F检验,t检验未带来影响,则变量多余;若若新变量的引入未能明显地改进修正的可决系数和F检验,且显著影响了其他回归参数估计值的数值或符号,致使t检验未通过,则说明出现严重的多重共线性。保留修正可决系数改进最大的,且不影响原有变量显著性的模型。
(三)岭回归法
7. 主要公式【131】
第五章 异方差性
1. 异方差公式【137】
异方差性是被解释变量观测值的分散程度随解释变量的变化而变化
Var(ui) = σi2=σ2f(Xi)
2. 产生异方差的原因3【137】
- 模型设定误差
- 测量误差的变化
- 截面数据中总体各单位的差异
3. 异方差性的后果3(2+2+1)【139】
-
对参数估计式统计特性的影响
- 参数的OLS估计仍然具有无偏性
- 参数的OLS估计的方差不再又有效
(OLS估计仍保持线性无偏性和一致性,但失去了有效性,即不再是最小方差)
-
对模型假设检验的影响
- 严重破坏t-检验和F-检验的有效性
- 在古典假定下用来检验假设的统计量可能不再成立
-
对预测的影响
- 无偏
- 无效
4. 异方差性的检验(画图PPT、基本思想、步骤)3【140】
-
图示检验法
- 相关图形分析
- 残差图形分析
-
GQ检验
可用于检验递增性或递减性异方差。
基本思想:将样本分为两部分,分别对两个样本进行回归,比较两个回归的剩余平方和是否有明显差异,以此判断是否存在异方差。
前提条件:只适用于大样本;除了同方差假定不满足外其他假定均满足
步骤:
-
排序:将样本观测值按解释变量𝑋𝑖的大小排序
-
数据分组:将排列在中间的𝑐个(样本个数的 1/5-1/4)观测值删除掉,再将剩余的分为两 个部分,每部分观察值的个数为(n-c)/2
-
提出假设,即 𝐻0:两部分数据的方差相等;𝐻1:两部分数据的方差不相等
𝐻0: 𝜎𝑖 2 = 𝜎 2 , 𝑖 = 1,2, ⋯ , 𝑛 𝐻1: 𝜎1 2 ≤ 𝜎2 2 ≤ ⋯ ≤ 𝜎𝑛 2
-
构造 𝑭 统计量:分别对上述两个部分的观察值作回归,由此得到 的两个部分的残差平方为 ∑𝑒1𝑖^2 和 ∑ 𝑒2𝑖^2 。 ∑𝑒1𝑖^2为前一部分样本回归产生的残差平方和, ∑ 𝑒2𝑖^2 为后一部分样本回归产生的残差平方和。 它们的自由度均为[(n-c)/2]-k, 𝑘 为参数的个数。 在原假设成立的条件下,可导出: 𝐹 ∗ = ∑ 𝑒2𝑖^2 / ∑𝑒1𝑖^2 ~F((n-c)/2-k, (n-c)/2-k)
-
判断。给定显著性水平 𝛼,查 𝐹 分布表得临界值
如果 𝐹 ∗ > 𝐹 𝛼 ,则拒绝原假设,接受备择假设,即模型中的随 机误差项存在异方差。 如果 𝐹 ∗ < 𝐹 𝛼 ,则不拒绝原假设, 认为模型中的随机误差项不存在异 方差。
-
-
White检验
基本思想:**如果存在异方差,则方差σ2与解释变量有关系**,分析σ2是否与解释变量有某些形式的联系以判断方差性。σ2一般是未知的,可以OLS估计的残差平方ei2作为其估计值。在大样本的情况下,作ei^2对常数项、解释变量、解释变量的平方以及其交叉乘积等所构成的辅助回归,利用辅助回归相应的检验统计量,即可判断是否存在异方差性。
不仅能够检验异方差的存在性,同时在多个解释变量的情况下,还能判断出哪一个变量引起的异方差。但是要求是大样本。
缺陷:对于多个解释变量的模型,运用该检验会丧失较多的自由度。
改进:用多元线性回归函数的拟合值Y,作ei2对Y与Y^2的辅助回归。但无法确定由那个Xi引起的。
5. 异方差性的补救措施3【146】
-
对模型变换 ——用sqrt(f(Xi))去除回归模型
基本思想:对原模型进行变换,使得变换后的模型为同方差
-
加权最小二乘法——广义最小二乘法
存在异方差时,方差越小,其样本值偏离均值的程度越小,其观测值应该越受到重视;反之,方差越大,其样本值偏离均值的程度越大,其观测值所起到的作用应当越小。
对样本:对较小的ei2基于较大的权重,对较大的ei2基于较小的权重。
权重w = 1 / σi^2
对模型变换域加权最小二乘法WLS实际上是一致的
- 模型的对数变换
可以降低异方差性的影响
6. 公式大全【157】
第六章 自相关
1. 引例【162】
2. 公式【163】
总体回归模型的随机误差项ui之间存在相关关系。
不满足Cov(ui,uj) = E(ui,uj) = 0
自相关程度可以用自相关系数表示,同r的表达方式。
3. 自相关产生原因【163】
-
经济系统的惯性
-
经济活动的滞后效应
-
数据处理造成的相关
-
蛛网现象:某种商品的供给量受前一期价格影响而表现出来的某种规律性,即呈蛛网状收敛或发散与供需的均衡点。
-
模型设定偏误:模型中省略了某些重要的解释变量或模型函数形式不正确。
4. 自相关的后果4【165】
(一)一阶自回归形式的性质
- 在ut一阶自回归时,随机误差项ui依然满足零均值、同方差的假定
- ut的协方差均不为0
(二)自相关对参数估计的影响
参数无偏,但不是方差最小的
低估真实方差和σ^2
(三)自相关对模型检验的影响
高估t统计量,会夸大所参数的显著性,对本来不重要的解释变量可能误认为重要而被保留。t检验失去意义。
参数的最小二乘估计量无效,F检验和R^2检验不可靠。
(四)自相关对模型预测的影响
置信区间不可靠,降低了预测的精度
5. 自相关的检验【168】
-
图示检验法
-
DW检验法
前提条件
- 解释变量X为非随机的
- 随机误差项为一阶自回归形式
- 线性模型的解释变量中不包含滞后的被解释变量
- 截距项不为0,即β1存在
- 数据序列无缺失项
0-dL、dL-dU、dU-(4-dU)、(4-dU)-(4-dL)、(4-dL)-4
缺点:
- DW有两个不能确定的区域
- n>=15
- 不适应随机误差项具有高阶序列相关的检验
- 有运用的前提条件
-
BG检验(LM检验)
- 基于所分析模型最小二乘估计的残差对解释变量和一定数量滞后残差的辅助回归,如果滞后残差足以解释当前残差的变异,就拒绝误差项无自相关的假设。
- 特点:不限于一阶自相关;适合有滞后被解释变量的情况;滞后长度不能先验确定,可逐次向更高阶检验。
6. 广义差分法【173】
广义差分方程:被解释变量和解释变量均为现期值减去前期值的一部分。如果误差项的自相关形式是AR§,即p阶自相关,则需要使用p阶广义差分。
-
自相关系数的确定
估计—自相关系数=1-DW/2
精确—
- 科克伦-奥克特迭代法
- 德宾两步法