Bootstrap

数据分布和统计分析

1、t检验

两个均值差异与否:
比较两样本连续的均值,以检验两均值的差异是否大于能被随机猜测所解释的差异

应用条件

  • 观测值相互独立
  • 从正态分布的总体种抽样得到
  • 样本数据<30;如果>30,则使用正态曲线的z检验

分类

  • 单样本t检验:某样本变量均数与给定总体一直均数相比是否有差异(网传正常成年人步速5km/h,对某大学生取样比较)
  • 独立样本t检验:检验由两独立样本估计的总体均数之间是否有差异(比较某一大学生男生和女生比较)
  • 配对样本t检验:检验两个相关样本估计的总体均数之间是否有差异(比较某大学男生负重和不负重情况下的步速)
2、独立样本四格表卡方检验的原理

举例:某院比较中药组(试验组)和西药组(对照组)降压效果,将101名患者随机分为两组,试验组55例中有效的42例,对照组46例中有效的有28例,问两种药物对降压颅内降压有无差别?
在这里插入图片描述
第一步:建立检验假设,H0假设(假设没有区别),H1假设(两者不相等)
第二步:计算H0假设成立的P值有多大,假设成立H0,那么试验组和对照组就属于一个总体,其总数为101名,有效个数70名,有效率为69.31%

表内用蓝色隔开的这四个数据是整个表中的基本资料,其余数据资料均由此推算出来,这四格资料表就专称四格表,或2行2列表从该资料算出的两种疗法有效个数分别为28,18个,两者的差别可能是抽样误差所致,也可能是两种治疗有效率确实不同,这里可以通过x2检验来区别其差异是否有无统计学意义,检验的基本公式为:
在这里插入图片描述
这个公式的A为实际数,表格四个数据就是实际数,T为理论数,是根据检验假设推断出来的,即假设这两种治疗的效果本来没有什么不同,差别可能仅仅是抽样误差所致,这里可以将量两种治疗法合计有效率作为理论的有效率,即42/55 = 76.36%,以此为依据可以推算四格表中相应的四格理论数
理论书计算(TRC),计算公式为: TRC = nR * nc/n
式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计,n为总合计的倒数

第1行1列:55x70 /101 = 38.12
第1行2列:55x31/101 = 16.88
第2行1列:46x70/101 = 31.88
第2行2列:46x31/101 = 14.12
根据原来的四格表数据:
在这里插入图片描述
计算X^2值,按照上面的计算公式:

X^2 = 2.75

然后再根据x^2的值查表得到P值, 在查表之前应知本题自由度。按x2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查x2界值表,然后再查表找到计算P值,差异有高度统计学意义,按α=0.05水准,看是否拒绝原假设,P值大于0.05表示无差异,小于0.05表示有差异。

通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,x2值越小;如两者相同,则x2值必为零,而x2永远为正值。又因为每一对理论数和实际数都加入x2值中,分组越多,即格子数越多,x2值也会越大,因而每考虑x2值大小的意义时同时要考虑到格子数。因此自由度大时,x2的界值也相应增大。

在这里插入图片描述
四格表中的x2值的矫正
在这里插入图片描述

3、F检验

F分布(F检验)
两个总体的方差比值就是F值
在这里插入图片描述
举例:下列为用触屏键盘和实体键盘打字完成时间(分钟),检定两种键盘打字时间方差是否相同
在这里插入图片描述

4、方差分析

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。

针对三个或者以上均值的比较
t检验(两两成对比较)的局限性

  • 可靠性比较低
  • 假设有4个样本均值要相互比较,则共有6对样本均值差异的比较,假如每对比较检验的显著性水平为a=0.05,即信赖水平0.95,所以6对样本均值变异独立比较结果的正确率为(0.95)的6次方 = 73.5%

方差分析可维持在a = 0.05的显著水平下,同时比较数个样本均值的相等性问题
应用条件:
总体:正态且方差相等
样本:独立、随机

基本思想:将总方差分解为多个部分,每个部分的变异可以由某因素的作用来解释,通过比较可能由某因素所至的变异与随机误差,即可以了解该因素对测定结果有无影响

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下面我们用一个简单的例子来说明方差分析的基本思想:
举例:如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:

患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

问该地克山病患者与健康人的血磷值是否不同?

从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源:

组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
组间变异,即由于克山病的影响使得患者与健康人组的血磷值均值大小不等。

而且:SS总=SS组间+SS组内
v总=v组间+v组内
如果用均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间均方去除组内均方的商(即F值)与1相比较

若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。

实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
在这里插入图片描述
分析方法

根据资料设计类型的不同,有以下两种方差分析的方法:
1、对成组设计的多个样本均值比较,应采用完全随机设计的方差分析,即单因素方差分析。
2、对随机区组设计的多个样本均值比较,应采用配伍组设计的方差分析,即两因素方差分析

单因素方差分析

(一)单因素方差分析概念理解步骤
是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。

	单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。
	
	单因素方差分析的第二步是剖析观测变量的方差。
	方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。

整个方差分析的基本步骤如下:
1、建立检验假设;
H0:多个样本总体均值相等;
H1:多个样本总体均值不相等或不全等。
检验水准为0.05。
2、计算检验统计量F值;
3、确定P值并作出推断结果

容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;

反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。

进一步分析

在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验

(1)方差齐性检验
对于控制变量不同水平各个观测量总体方差是否有显著性差异进行检验,如果不能保证控制变量的不同水平观测变量总体方差没有显著性差别,则不能认为总体分布相同

(2)多重比较检验
单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。
例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。
多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤
检验构造方法
(1)LSD方法
LSD方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字面就体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。
正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。
(2)S-N-K方法
S-N-K方法是一种有效划分相似性子集的方法,该方法适合于各个水平观测值个数相等的情况

多因素方差分析

基本思想:
多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。

举例:分析不同品种、不同施肥量对农作物产量的影响时候,可将农作物产量作为观测变量,品种和施肥量作为控制变量,利用多因素方差分析的方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合

多因素方差分析的其他功能
1、均值检验
利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验
多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中,检验值可以指定为以下几种:

  • 观测变量的均值(Deviation);
  • 第一水平或最后一个水平上观测变量的均值(Simple);
  • 前一水平上观测变量的均值(Difference);
  • 后一水平上观测变量的均值(Helmert)。

多因素方差分析的进一步分析

在上述案例中,已经对广告形式、地区对销售额的影响进行了多因素方差分析,建立了饱和模型。由分析可知:广告形式与地区的交互作用不显著,先进一步尝试非饱和模型,并进行均值比较分析、交互作用图形分析。
1、建立非饱和模型
2、均值比较分析
3、控制变量交互作用的图形分析

参考连接:https://baike.baidu.com/item/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/1502206?fr=aladdin

;