一、非参数假设检验
参数检验与非参数检验
参数检验:是指对一列数据的参数(平均数、方差等统计数据)进行的统计检验;这种参数检验通常是已经假定这列数据服从某一已知分布(例如均匀分布、二项分布或正态分布)。也就是说已知这列样本数据是从一个已知分布的总体样本数据中抽取出来的(例如:从一个班50个人的成绩中抽取了8个人的成绩,验证这8个人的成绩的平均值是否与全班成绩的平均值相等)参数检验的基本步骤和基本方法:
1. 做出假设:设置零假设(H0),通常是想要检验假设的反面
例如:对于单样本参数检验:假设样本平均数(或是其他的某个参数)与标准正态分布(或是一个已知分布的总体的平均值)的平均数存在显著差异
对于两个或多个独立样本:假设两组样本的均值(或是其他参数)没有显著差异
或者可以直接假设两者的显著性水平,对应下表中的 值
例如:假设两组样本的均值的显著性水平为0.005
2. 选择检验方法:对于参数检验,通常有 t 检验、方差分析等
t 检验方法:
其中: 为样本的平均值, 为总体的平均值(在进行单样本检验), 为样本方差,n 为样本数量
当进行两独立样本检验的时候或是多独立样本检验的时候,就变成了两个样本的均值进行计算,就是公式中的X,Y;而当单样本检验的时候就是与总体的平均值比较了。
3. 查表:上述得到的 t 统计量,需要与分布表比较从而验证是否具有显著性:
从中可以看出有单侧临界值和双侧临界值,这取决于你的假设是什么
例如:如果我的假设是:样本平均值大于标准正态分布的平均值,此时就需要单侧临界值
如果我的假设是:样本平均值与标准正态分布的均值不相等,则此时就是双侧临界值
同时注意到表中还需要确定一个值:自由度(本身比较复杂,只给出一些特定的)
对于单样本 t 检验中的自由度= n - 1 (n 为样本大小)
对于两个独立样本参数检验的自由度=n1 + n2 - 2 (n1、n2 为两组样本大小)(两组样本方差相等)
如果两个样本方差不相等,则自由度计算更为复杂,需要借助统计软件得到
然后可能还有一个值(alpha)需要确定,如果你的假设中已经对alpha的值有了假设,就可以直接比较;如果没有规定,只是笼统的说【数理统计】5-假设检验、参数与非参数检验有或没有显著性差异,则可以选择常用的0.01、0.005等
4. 得出结论,如果 t 统计值小于alpha, 则可以拒绝原假设
这篇文章中有较为详细的参数检验方法(t 检验、F 检验、方差分析等):
非参数检验:相较于参数检验,非参数检验是一种不依赖于总体分布的假设检验方法,它不需要假定数据来自特定的参数分布(如正态分布),而是直接对数据的分布特征或位置关系进行检验。非参数检验适用于样本量较小、总体分布未知或分布形态复杂的情况。常见的非参数检验方法包括卡方检验、秩和检验等。
它在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
非参数检验的基本方法与步骤与参数检验方法的基本步骤相类似。
1.1 单样本的非参数检验:
检验样本来自总体的分布是否与某个已知的分布相吻合
粗略方法:绘制样本数据的直方图、pp图、QQ图判断
精确方法:卡方检验、二项分布检验、K-S检验
卡方检验:
为检验实际分布是否与理论分布(期望分布一致),可采用卡方统计量,典型的卡方统计量是Pearson卡方统计量,其公式为:
其中, 为实际观测值(就是样本中,情况为 i 的个数),n 是样本个数, 为预期(也就是理论分布情况下,发生情况 i 的频率), 其实就是理论分布中,情况 i 发生的期望值
然后同上面参数检验的步骤,需要查表(同样需要先计算自由度和显著性水平)
最后根据卡方统计量与alpha值大小关系,决定拒绝还是接受假设。
例如:
这是一个工厂中随机抽取的一周五天工作日中抽取得到的次品数,一共90件,问该企业一周内出现次品的数量是否均匀分布在一周五天的工作日中 ( =0.05)?
工作日 1 2 3 4 5 次品数 25 15 8 16 26
从题目中分析:是要检验次品的分布是否服从均匀分布,确定了预期理论分布为均匀分布
那么,公式中的
同时,公式中的 k值为5,表示一周五个工作日
二项分布检验:
与上面的卡方分布不同的是,这里知道是一个二项分布的问题,但不知道成功的概率 是多少
在二项分布的时候,我们通常需要计算的是 Z 统计量
其中,X 为样本中成功的样本个数,n 为样本个数, 为预期的二项分布中成功的概率
例如:
人 1 2 3 4 5 分数 99 84 69 95 95 上面的表格是5个人的成绩,请检验这5名同学的优秀率是否达到了20% (=0.005)
(这个题中的样本数比较少)
通过题目可以明显看出,是否达到优秀,这是一个二项分布的问题1. 提出假设:这5名同学的优秀率达到了20%,也就是说 二项分布问题中,成功的概率为0.2
2. 计算 Z 统计量
3. Z 统计量服从标准正态分布,通过 Z 统计量查表,找到对应的概率值 P
4. 此时需要明确是单侧还是双侧问题,对于这个题来说,假设是达到优秀,也就是 ,是一个单侧问题
如果是双侧问题,得到的 p 值需要乘以 2
5. 得到的 p 值再与预先假设的 alpha 值比较
1.2 两独立样本的非参数检验
通常的检验方法:Mann-Whitney U检验、K-S检验、W-W游程检验
当然,两独立样本也可以使用卡方检验,通常用于检验两个变量在不同样本中的分布中的分布是否存在显著性差异
例如:
上表是两种品牌汽油每加仑行驶里程数,则在显著性水平=0.05下,判断两个品牌间是否存在显著性差异?
A
30.4
28.7
29.2
32.5
31.7
29.5
30.8
31.1
30.7
31.8
B
33.5
29.8
30.1
31.4
33.8
30.9
31.3
29.6
32.8
33
Mann-Whitney U检验
目的:Mann-Whitney U检验(也称为Wilcoxon秩和检验)用于比较两个独立样本是否来自具有相同分布的总体,特别是当总体分布未知或不符合参数检验的假设时。
原理:该检验基于两个样本中观测值的秩(即排序后的位置)。如果两个样本来自相同分布的总体,则它们的秩应该随机分布在合并样本的秩中。
什么是秩?
在统计学中,特别是在非参数检验中,秩是指将一组数据从小到大排序后,每个数据项所占据的位置或顺序。
假设我们有两个样本:
- 样本X:2,5,8
- 样本Y:1,3,6,9
首先,我们将这两个样本合并:
- 合并后的样本:2,5,8,1,3,6,9
然后,我们对这个合并后的样本进行排序:
- 排序后的样本:1,2,3,5,6,8,9
现在,我们为每个数据项分配秩。秩是从1开始的连续整数,按照数据项在排序后样本中的位置来分配:
- 1 的秩是 1
- 2 的秩是 2
- 3 的秩是 3
- 5 的秩是 4
- 6 的秩是 5
- 8 的秩是 6
- 9 的秩是 7
步骤:
1. 将两个独立样本合并并且重新排序,可以得到每个值对应的秩
2. 分别计算样本1中每个值所对应的秩 ;以及样本2中每个值对应的秩
3. 分别计算两个样本的 U 统计量
4. 计算最终 U 值
5. 决策,对比 U 值与 alpha 值
Kolmogorov-Smirnov (K-S) 检验
目的:Kolmogorov-Smirnov检验用于比较一个样本与参考概率分布(或两个独立样本)之间的差异。
原理:该检验通过计算样本累积分布函数(CDF)与参考CDF(或两个样本CDF)之间的最大垂直距离(即最大偏差)来进行。
步骤:需要得到 D 统计量
其中,F(x)就是两个样本的累计分布函数,类比概率分布函数;sup 就是求两个函数之间的最大垂直距离。
Wald-Wolfowitz (W-W) 游程检验
目的:Wald-Wolfowitz游程检验(也称为游程测试)用于检验一个序列中的元素是否随机出现,特别是用于二项分布的情况(如成功和失败的序列)。
还可以进行两独立样本的非参数检验
原理:游程是指序列中具有相同值的连续元素段。如果序列是随机的,那么游程的数量应该遵循一定的分布。
步骤:(检验一个0和1组成的序列中的元素是否为随机出现)
1. 一个0,1组成的序列,序列长度为 n,分别计算0和1的总数,分别为
2. 计算游程数 R 的期望值与方差
3. 计算 Z 统计量
其中,R 可以是 0 或 1 的游程数。
步骤:(两独立样本非参数检验)
1. 将两样本合并并且排序
2. 分别计算两样本的游程数 ,就是连续来自同一样本的数据段的长度
3. 在W-W游程检验中,P值的确定依赖于游程数U、样本1的大小m、样本2的大小n以及总样本大小N(N=m+n)。
4. 当 时,可以使用精确的P值表来查找对应的P值。这些表通常列出了不同m、n和U组合下的P值。在这种情况下,没有直接的数学公式来计算P值,而是需要通过查找表来获得。
5. 当 时,U的抽样分布可以近似为正态分布。此时,可以使用Z统计量来估计P值。Z统计量的计算公式通常涉及游程数的期望和方差,但这些公式在W-W游程检验的常规应用中并不直接给出,因为在实际操作中更倾向于使用统计软件来计算Z值并查找相应的P值。
1.3 多独立样本的非参数检验
其实有比较简单的方法,就是对 n 个样本进行两两组合,分别进行两独立样本的非参数检验
这里我介绍几种综合方法,由于这些方法涉及到的公式的计算较为复杂,因此只给出原理,可以用统计软件实现。
1. Kruskal-Wallis H秩和检验:通过对推广的平均秩研究来实现推断的
2. Median(中位数)检验是通过对中位数的研究来实现推断的
3. Jonkheere-Terpstra检验与两个独立样本检验的Mann-Whitney U类似
注意:如果你的假设是几个样本所来自的总体无显著差异,也就是说认为几个样本来自同一个总体。如果最后的结论是拒绝假设,那么只能说明几个样本里面存在来自不同总体的样本,而不能说明均来自不同的总体。
1.4 两相关样本的非参数检验
与上述不同,上述均为独立样本,也就是说样本之间互不影响,而如果两样本之间本身就有关联。
两相关样本通常来自同一组个体的不同时间下、不同条件等情况下的观测值,样本之间存在某种内在的联系和相关性。因此需要考虑样本间的相关性对检验结果的影响。
相关配对总体:
相关配对总体是指由同一组个体在不同时间、不同条件或不同测量方式下构成的总体。这些个体之间存在某种内在联系或相关性,使得它们的观测值不是完全独立的。
例如:生产同一种产品,采用未改进生产的样品每天抽取到的次品率为样本A,经过改进后技术生产的样品的次品率为样品B,检验改进后的技术是否可以显著减少次品率?此问题则为两相关样本的检验。
(如果是采取两种不同的技术A、B生产同一产品,则为两独立样本)
需要深入理解相关和独立的概念:在统计学中,当我们谈论“两相关样本”和“两独立样本”时,关键的区别在于样本观测值之间的独立性,而不是生产技术的种类或数量。
例如:第一种情况中,即使我们谈论的是同一种产品,但如果“未改进生产的样品”和“经过改进后技术生产的样品”是在完全不同的条件下生产的(例如,使用了完全不同的原材料批次、设备或工人),那么它们也可以被视为两独立样本。
但在实践中,如果这两种样品是在同一生产线上,只是技术有所改进,并且其他条件尽可能保持不变,那么它们更可能是两相关样本。
Wilcoxon符号秩检验(Wilcoxon Sign-Rank Test)
Wilcoxon符号秩检验用于比较同一组对象在两种不同条件(或时间)下的测量值是否存在显著差异。假设我们有一组对象,每个对象在两种条件下都有一个测量值,我们想要知道这两种条件下的测量值是否存在显著差异。
步骤(不要忘记开头的假设步骤):
1. 计算差值:计算每个对象在两种情况下的测量值之差,假设共有 n 个对象,则有 n 个配对差值
2. 计算差值的秩: 忽略差值的正负号,对所有差值(绝对值)进行排序,并分配秩 。如果两个差值相等,则它们共享平均秩。
3. 分配符号:将原始差值数据的正负号分配给秩。
4. 首先分别计算正差值秩的和 和负差值秩的和 计算检验统计量 w
5. 通过查表或统计软件计算得到 p 值,最终根据 p 值与alpha的大小决定
McNemar检验(配对卡方检验)
McNemar检验是一种用于比较两个相关样本在二分类变量上的变化是否显著(就是上面的例子,是否为次品,次品率的变化)的非参数检验方法,特别适用于2x2列联表数据,其中行和列分别代表两种不同分类下的观测结果。
步骤:
1. 根据题意构建:2 * 2 列联表
条件1 | 条件2 | |
类别1 | a | b |
类别2 | c | d |
其中,a和d分别表示在两个时间点或条件下都保持不变(即没有变化)的观测数;b表示从类别1变为类别2的观测数;c表示从类别2变为类别1的观测数。
注意此处列联表中的数据的含义与传统意义上不同:
例子:一套工艺生产4个样品,第一个样品为正品,剩余为次品;改进后的工艺同样生产4个样品,前两个为正品,剩余为次品。(注意:现实生活中,我们是不知道具体是哪个样品在改进工艺之后从次品变成了正品,这里是为了便于理解。对于不知道的情况下,我们最好换一种方法,这也是该方法的一个弊端)
样品 1 2 3 4 改进前 正 次 次 次 改进后 正 正 次 次 传统的列联表:
未改进 改进后 正品 1 2 次品 3 2 基于McNemar检验的列联表:
未改进 改进后 正品 a=1(第一个样品始终为正品) b=1(第二个样品改进后变为正品) 次品 c=0 d=2(第三、四个样品始终为次品)
2. 计算卡方统计量
当样本量较小时(特别是b+c≤40时),通常需要进行连续性校正,以提高检验的准确性。校正后的公式为:
3. 查表得到p值,通过对比p值与alpha值的大小,从而决策
这种方法的局限性(从上面列联表中可以看出)
如果题目只给出了两个条件下,两种类别的总数的话,我们是不知道具体哪个样品变化,哪个样本没有变化,也就没办法列列联表,也很难得到b-c的值
因为McNemar检验的核心在于比较同一组对象在两个不同时间点或条件下的状态变化,而这种变化需要具体到每个对象上。如果缺乏这种具体信息,我们就无法进行有效的配对分析。
Marginal Homogeneity检验
Marginal Homogeneity检验(也称为边际同质性检验)用于检验两个或多个评价者对同一组对象进行评价时,这些评价是否具有一致性。它特别适用于有序分类数据。
是对McNemar的推广。检验的两个数据变量不再为二分变量,而可以是多值的分类变量,该检验方法是将先后测量的两样本进行 检验。
具体的实现步骤通常借助统计软件实现。
1.5 多相关样本的非参数检验
Friedman检验
Friedman检验是一种利用秩实现对多个总体分布是否存在显著差异的非参数检验方法。其原理假设是多个配对样本来自的多个总体分布无显著差异。当数据不满足参数检验的假设条件(如正态分布、方差齐性等)时,Friedman检验是一个很好的选择。
关键公式:
其中,N是样本总数(即受试者数量),k是条件数量(即处理的数量), 是第i个条件的秩次总和。这个公式计算了每个条件秩次总和与其期望秩次总和(如果所有秩次均匀分布)之间的差异的平方和,并进行了标准化。
Kendall's W 检验
Kendall’s W检验是用于测量观察者之间一致性或协调性的统计工具。它可以用于测试三个或更多的评价者之间的一致性,以及两个或更多的使用相同测量方法的评估之间的一致性。Kendall’s W系数的取值范围从0到1,其中0表示完全不一致,1表示完全一致。
步骤:
1. 收集多个评价者对一组对象的排名数据。
2. 对每个对象的排名方差进行计算,反映了评价者对该对象评价的离散程度。
3. 计算 W 统计量
其中,W表示Kendall’s W系数,k表示评价者的数量,n表示待排序对象的数量, 表示第j个对象的排名方差, 为第i个评价者对第j个对象的排名。
4. 判断一致性,W 系数越接近 1, 表示评价者之间的一致性越高。
Cochran's Q 检验
1. 将数据划分为不同的组别,每个组别包含一个或多个分类变量
2. 构建列联表,每一行代表一个组别,每一列代表一个类别,交叉点的数据表示该组别中该类别的频数
一个例子:
一等品(类别) | 二等品 | 三等品 | 次品 | |
一代技术(组别) | ||||
二代技术 | ||||
三代技术 |
3. 计算Q统计量和自由度(自由度通常为组别数-1)
其中,k表示组别的数量, 表示第i组中某一类别的频数,N表示总样本数。
4. 根据Q统计量和自由度查找 p 值,并且对比alpha值,决策。
二、方差分析
事件发生往往与多个因素有关,但各个因素对事件发生的作用是不一样的,而且同一因素的不同水平对事件发生的影响也是不同的。
方差分析是分析或检验多个总体间的均值是否有所不同
方差分析则是通过方差来进行检验的。
基本原理:
方差分析是认为不同处理组的均值间的差别基本来源有两个:
随机误差,如测量误差造成的差异或个体间的差异,称为组内差异
实验条件,即不同的处理造成的差异,称为组间差异
组件变差+组内变差=总变差(SST=SSA+SSE)
基本假设:
观测变量各总体应服从正态分布
观测变量总体的方差应相等,即方差具有齐性
常用术语:
观测变量:也叫因变量,如上例中的作物产量;
控制变量:影响实验结果的自变量,也称因子,如上例中的品种、施肥量等;
水平:控制变量的不同类别,如A品种,B品种;10公斤化肥、20公斤化肥、30公斤化肥等;
随机因素:因素水平与实验结果关系是随机的,即不确定因素。
2.1 单因素方差分析
适用于单一因素影响的一个(或几个相互独立的)因变量,检验该因素各水平之间上述因变量均值是否存在显著差异
F 检验
1. 提出假设:控制变量不同水平下观测变量各总体均值无显著差异
2. 计算 F 统计量:
其中,k 是控制变量的个数,n 为样本个数,SSA为组间差异, 为第i个控制变量下样本个数, 为第i个控制变量的平均值, 为全部总体的平均值,SSE为组内差异, 为第i个控制变量下第j个样本对应的值。
3. 根据 F 统计值得到p值,从而与alpha值比较,做出决策。
2.2 多因素方差分析
多因素方差分析用来研究两个及两个以上的控制变量是否对观测变量产生显著影响。多因素方差分析不仅能够分析多个控制因素对观测变量的影响,也能够分析多个控制因素的交互作用对观测变量产生影响,进而最终找到利于观测变量的最优组合。
因此,需要将观测变量总的离差平方各分解为3个部分:
多个控制变量单独作用引起的离差平方和 (SSA、SSB);
多个控制变量交互作用引起的离差平方和 (SSAB);
其他随机因素引起的离差平方和 (SSE)。
则,总离差平方和 SST=SSA+SSB+SSAB+SSE (以两个控制变量为例)
其中,控制变量A有k个水平,变量B有r个水平
其中, 为变量A在水平i下,变量B在水平j下的样本个数, 为变量A在水平i下样本因变量的平均值,SSB的计算同SSA,将变量A换为变量B。 为在变量A的水平i下,变量B的水平j下的样本因变量值, 为变量A的水平i下,变量B的水平j下所有样本的因变量的平均值。(这里可以借助真实的例子理解一下,因为这个涉及的维度较为复杂)
2. 计算 F 统计量
体现了因素A对因变量的影响,对因素B同理。
则体现了因素A、B交互作用对因变量的影响。
2.3 协方差分析
不仅考虑到控制因素对因变量的影响,同时考虑到非控制变量对因变量的影响
因此,总的离差平方和 = 控制变量+协变量+随机因素
步骤
1. 提出零假设:控制变量和协变量对观测变量均无显著性影响
2. 线性关系检验,检验协变量与因变量之间是否存在线性关系
3. 计算 F 统计量,
其中, 是控制变量的 F 统计量, 是协变量的 F 统计量, 是方差,下标x、c、r分别代表控制变量、协变量、随机因素
三、显著性差异?
什么时候希望是显著性差异,什么是否希望没有显著性差异
希望出现显著差异的情况:
探索性研究:当研究者想要了解两个或多个群体、条件或变量之间是否存在差异时,他们通常会希望出现显著差异。这有助于揭示新的关系、效应或模式。
验证性研究:在某些情况下,研究者可能基于先前的理论、研究或实践经验,提出了一个明确的假设,即两个或多个群体、条件或变量之间存在显著差异。此时,他们自然会希望研究结果能够支持这一假设。
对比研究:在比较不同产品、治疗方法、政策效果等的研究中,研究者通常希望看到显著的差异,以便能够区分它们之间的优劣。
不希望出现显著差异的情况:
等效性研究:在某些医学、药学或工业领域的研究中,研究者可能想要证明两种产品或治疗方法在效果上是等效的。此时,他们不希望看到显著差异,因为这可能表明两种产品或方法之间存在不可接受的差异。
稳定性研究:在评估某个系统、过程或产品的稳定性时,研究者可能希望看到在不同时间、条件下测量的结果之间没有显著差异,以证明其稳定性和一致性。
基线研究:在一些研究中,研究者可能需要在实验开始前对参与者进行基线测量,以确保他们在实验开始前是相似的。此时,他们不希望看到显著差异,因为这可能表明参与者之间存在不可忽视的异质性。