第1章 绪论
一、名解
1、Statistic统计量:由样本观测值获得的统计指标称为统计量。
2、Statistics统计学:收集、分析、解释与呈现数据资料同时处理数据中变异的一门学科。
3、Medical statistics医学统计学:运用概率论和数理统计学的原理和方法,研究医学数据的收集、整理、分析和推断,从而发现医学现象的内在规律,用以指导医学理论和实践的学科。
4、Individual个体(观察单位observation unit):是医学研究获得数据的基本单位,也是研究者所直接面对的研究对象。
5、Population总体:根据研究目的,所有的同质的观察单位(个体)某项观测值的全体称为总体。
6、Sample样本:来自总体的部分观察单位的观测值称为样本。
7、Descriptive statistics统计描述:用统计指标、统计图表等描述资料的数量特征及其分布规律。
8、Statistics inference统计推断:指用样本信息推断总体特征的统计学问题,包括参数估计parameter estimation和假设检验hypothesis test两部分内容。
9、Homogeneity同质:同一总体中个体的性质,影响条件或背景相同或非常相近。个体的同质性是构成研究总体的必备条件。
10、Variation变异:对于同质的研究对象,其变量值之间的差异称为变异。
11、Variable变量:可以测量的任何特征或属性(不同个体结果可能不同),能表现观察单位变异的某种特征。
12、Variance方差/均方mean square:
13、random variable随机变量:随机实验结果的所有取值称为随机变量。
14、概率与频率:在相同的条件下,独立地重复n次实验(如采用某种药物治疗多名患者),随机实验地某一结果A(如有效)出现f次,则称f/n为结果A出现地频率(frequency)。当n逐渐增大时,频率f/n始终在一个常数左右微小摆动,称该常数为结果A出现的概率(probability),记为P。
15、Error误差:指测量值与真值之间的差异。
16、Systematic error系统误差:由一些固定因素造成,取值恒定或按一定规律变化,具有方向性。
17、Random error of measurement随即测量误差:是指在测量中即使仪器设备已校准,操作过程已进行了标准化,但相同条件下对同一研究对象重复测量,也可能存在多次测量结果不完全相同的现象。
18、Sampling error抽样误差:是指由于生物体的变异和抽样所引起的样本统计量与总体参数之间的差异。
19、Parameter参数:总体中全部观测值所得的特征值称为参数。
20、Statistic统计量:由样本观测值获得的统计指标称为统计量。
样本统计量是随机变量,并且取值在总体参数附近波动,可作为参数的估计值。
21、Rare event/little probability event小概率事件:当P≤0.05时,表示在一次实验或观察中该结果发生的概率很小,称为小概率事件。
22、小概率原理/小概率事件实际不发生原理:小概率事件并不表示不可能发生,但在某一次事件中该事件发生的可能性很小,可视为很可能不发生。
23、Measurement data计量资料/quantitative data定量资料:是检测每个观察单位某项指标的汇总结果,表现为数值大小,一般有度量衡单位。(连续性和离散型)
24、Unordered categorical data无序分类资料:是指变量值为某种属性,其取值无次序关系,相互独立。分为二分类资料和多分类资料。
25、Binary categorical data二分类资料:二分类资料的属性为两个相互对立、互不相容的类别,如性别(男/女),检测结果(阳性/阴性)。
26、Multiple categorical data多分类资料:多分类资料的属性为多个互不相容的类别,如血型(A、B、O、AB)
27、Ordinal categorical data有序分类资料/rank data等级资料:指变量值为某种属性,且其取值存在次序关系,具有半定量性质,表现为等级大小或程度。如疗效评价(痊愈、显效、有效、无效)。
二、填空
1、实验设计的三原则:重复(replication)、随机化(randomization)、对照(control)。2、医学统计学的研究步骤:统计设计;收集资料;整理资料;分析资料
3、资料的来源:经常性资料、专项调查或实验研究资料、统计年鉴、统计数据专辑
4、资料的类型:计量资料、无序分类资料、有序分类资料
变量只能由高级向低级转化(连续型-->有序-->无序-->二值)
定量-->等级-->定性
三、简答
1、统计设计分类:
2、统计设计的主要内容?
A、通过文献回顾、明确研究目的和假说;
B、确定研究总体、研究对象、观测指标;
C、确定资料收集的方式与获取途径;
D、确定控制误差和偏倚、保证数据质量的方法;
E、确定电子数据的入录、存储方式;
F、确定资料的整理与汇总方法,以及描述资料特征的统计指标;
G、确定统计分析指标和统计分析方法。
3、random experiment随机实验的属性:
可以在相同条件下重复进行,
每次实验的结果不止一个,并且能预计实验的所有可能结果;
进行实验之前不能确定哪一个结果会出现。
4、调查到A、B两种药物治疗同一种疾病的有效率分别为90%、70%,能否认为A药的有效率高于B药?
答:被调查的患者属于“样本”,“样本”不等于“总体”;而结论说A药效果是否好于B药,针对的是“总体”,所以只能说对于被调查的“样本”,A优于B。要得到A药优于B药的结论,需要进行严格的临床试验并进行统计学分析。
第2章 计量资料的统计描述
一、名解
1、average平均数:描述一组变量值的集中位置或平均水平。
2、Mean均数/arithmetic mean算术均数:是一组已知同质的数值之和除以数值个数所得的商。
总体均数μ,样本均数
。用以描述一个随机变量观测值的平均水平。
适用条件:正态分布,近似正态分布
3、geometric mean几何均数(G):等于一个变量的所有n个观察值的乘积的n次方根。
适用条件:成等比级数(倍数)资料,特别是对数正态分布资料,如:以浓度或滴度形式呈现的数据。
4、median中位数(M):指将一组变量值按大小顺序排列,位于正中间位置的数值。位置指标,以中位数为界,将变量值分为左右两半,即各50%。 优点:计算简单、易于理解。
适用条件:非正态分布资料(对数正态分布除外);频数分布的一端或两端无确切数据的资料;总体分布不清楚的资料。
5、Percentile百分位数:是一种位置指标,用Px表示。 n:样本例数,fl:该组段之前的累计频数
i:组距,L:Px所在组段的下限值,fx:所在组段的频数
6、极差/全距range:是所有观察值中的最大值(max)与最小值(min)之差。
优点:简便,应用广泛
缺点:只利用了max和min两个极端值,不能很好反映组内其他数值的变异度;n大,R也大;不稳定。
7、quartile四分位数:把全部变量值分为四部分的分位数。x25%,x50%,x75%分别为第一四分位数、第二四分位数、第三四分位数,记为Q1,Q2,Q3.
8、Quartile range四分位数间距(Q):
Q=Q3-Q1=X75%-X25%
四分位数间距反映数据的变异程度比极差稳定。
9、Variance方差/mean square均方:总体方差
,样本方差
方差的大小反映一组资料的离散趋势大小。
10、Standard deviation,SD标准差:对方差进行平方根变换。只能取正值,标准差越大,个体间变异越大,标准差越小,个体间变异越小。自由度为n-1.
总体标准差
;样本标准差
。
11、Coefficient of variation,CV变异系数:度量相对离散程度的指标。
优点:排除了平均水平的影响,并取消了单位。
二、填空
1、描述集中趋势的指标:算术均数、几何均属、中位数、百分位数
2、描述离散趋势的指标:极差、四分位数间距、方差、标准差、变异系数
正态分布:均数、标准差; 偏态分布:中位数、四分位数间距
二、简答
1、统计描述主要包括哪几个方面来发现和描述数据的基本特征?
答:可以从集中趋势、离中趋势及分布形态三个方面进行描述:
① 分布的集中趋势,反映各数据向其中心值靠拢或聚集的趋势;
② 分布的离散趋势,反映各数据远离其中心值的趋势;
③ 分布的形状,反映数据分布的偏态和峰态。
2、频数分布表制作步骤:
1)计算极差(全距),R=Max-Min;2)确定组数:k=5-15组;
3)确定组距:组距=极差/组数,i取整取偶;4)确定各组段上下限;5)计算频数、频率。
3、频数分布表的主要用途有哪些?
答:1)揭示计量资料的分布特征;2)描述计量资料分布的集中趋势和离散趋势;3)发现数据中特大、特小或可疑的离群值;4) 便于进一步做统计分析和处理。
4、正态分布的主要应用有哪些?
答:1)制定医学参考值范围;2)质量控制;3)统计学的重要基础理论之一,正态分布作为统计学中的一种重要分布,时许多统计方法如t检验、方差分析、回归分析等的适用条件,且很多统计方法的基础理论分布如t分布、F分布、χ²分布等都是在正态分布的基础上推演出来的。
5、变异系数与标准差有何异同?
答:相同处在于变异系数与标准差都是描述离散程度的统计指标;不同处在于前者用于比较两个或以上具有不同测量单位或均数相差较大的变量离散程度,后者主要用于描述同一个变量的离散程度。
6、右偏态分布/正偏态分布:集中的位置偏向左侧(拖尾在右)
左偏态分布/负偏态分布:集中的位置偏向右侧(拖尾在左)
7、标准差的主要意义和用途:1)描述一组数据的离散趋势(或变异程度),标准差的值越大,说明变异程度越大;2)用于计算变异系数;3)用于计算标准误;4)结合均值与正态分布的规律估计参考值范围。
描述集中趋势的指标
描述离散趋势的指标
第3章 计数资料的统计描述
一、名解
1、Proportion构成比/结构相对数:表示事物内部某一组成部分观察单位数与该事物各组成部分的观察单位总数之比,用以说明事物内各组成部分所占的比重。通常用百分数表示。
2、Rate率/强度相对数:用以说明单位时间内某现象发生的频率或强度。
3、Relative Ratio相对比/ratio比:两个有关联的指标A与B之比,说明两指标间的比例关系,实际应用中简称比。例如:性别比、师生比、变异系数、OR值、RR值。
4、发展速度:表示报告期指标的水平相当于基线期(或前一期)指标的百分之多少或若干倍。
定基比:相对比的一种。以某一年的数值作为基数,然后将该年以后逐年的数值与之相比,即得定基比,其反映了某一确定年份以后各年得发展变化情况。
环比:表示两个统计周期(比如连续两月)内的量的变化比。
5、平均发展速度:说明某事物在一个较长时期中逐年平均发展变化的程度。
6、平均增长速度:反应社会及自然事物在较长时期内各期(年)平均增长程度的相对数。以对数或百分数表示。它等于平均发展速度减1。
二、简答
1、简述结构相对数和强度相对数的区别。
答:前者又称构成比,表示事物内部某一组成部分观察单位数与该事物各组成部分的观察单位总数之比,用以说明事物内各组成部分所占的比重;后者又称率,用以说明单位时间内某现象发生的频率或强度。
2、简述发病率与患病率、死亡率与病死率的不同。
答:1)发病率:(某时期一定人群中某病新发生的病例数/同期观察人数)×K;2)患病率:[某一时点(时期)一定人群中某病新旧病人数/该时点(同期)平均观察人数]×K;3)死亡率:(某时期因某病死亡人数/同期平均观察人数)×K;4)病死率:(某时期因某病死亡人数/同期患某病的病人数)×100%。K=100%、1000‰、10000/万、100000/10万等。
3、应用相对数时应注意哪些问题?
答:1)计算相对数应有足够的观察单位数(分母不宜过小);2)正确计算合计率,合计率=总阳性例数/总观察例数;3)不能用结构相对数代替强度相对数;4)相对数的比较应具有可比性;5)样本率或样本构成比的比较应作假设检验等事项;6)率的标准化。
4、简述辛普森悖论和率的标准化的基本思想。
答:当比较组之间某种内因素的组成结构不同时,可能会导致不同组成结构内部的比较结果与合计率的比较结果相互矛盾,这种现象称为辛普森悖论。解决该问题的方法是率的标准化,采用统一的标准消除该因素对组成结构的影响。需要注意的是,标准化之后的率反映的是相互比较的资料之间的相对水平,标准选择不同,标准化率也会有差别。
5、率的标准化应注意的问题:
1)当各比较组内部构成(年龄、性别)不同时,应对率进行标准化后再作比较;
2)标准化率只表明各标准化组率的相对水平,而不代表其实际水平;
3)标准化的实质是找一个标准,标准不同,标准化率会有区别,需说明所用的标准及理由;
4)如为抽样研究资料,两样本标准化率的比较也应作假设检验;
5)存在抽样误差。
第4章 常用概率分布
一、简答
1、简述正态分布、二项分布、泊松分布三者的区别与联系。
答:1)我们把这样一条高峰位于中央,两侧逐渐下降并完全对称,两端永远不与横轴相交的钟形曲线称为正态分布曲线。
公式为:
-∞<x<+∞,μ为总体均数,σ为标准差
正态分布的特征:
A、正态分布呈钟形,单峰且关于X=μ对称(两端以x轴为渐近线)
B、正态分布概率密度函数f(X)在X=μ处达到最大值,在
处有拐点
C、μ是位置参数,表述正态分布区线峰所在的位置。当σ固定时,μ增大,曲线沿x轴向右移动
σ是形状参数/变异度参数,决定曲线的形状。当μ固定时,σ越大,X的取值越分散,曲线越矮胖。
D、正态分布曲线下的面积有共同的规律。
(μ-σ,μ+σ)0.68(μ-1.64σ,μ+1.64σ)0.9(μ-1.96σ,μ+1.96σ)0.95(μ-2.58σ,μ+2.58σ)0.99
标准正态分布/u分布:
正态分布的应用:制定医学参考值范围;质量控制;统计学的重要基础理论之一。
2)二项分布是一种重要的离散型分布,用于描述两分类资料(结果只能出现两种情况)的n次独立重复试验中发生某种阳性结果X次的概率分布。n为离散参数,只能取正整数,兀是每次试验事件A发生的概率。若随机变量X的概率函数为:
则称X服从参数为n、π的二项分布,记为X~B(n,π)。
二项分布B(n,π)的总体均数μ=nπ,总体标准差
二项分布的图形:兀=0.5时,图形对称分布。兀不为0.5时,图形随样本量n增大逐渐趋于对称。
二项分布的正太近似:根据中心极限定理,在n很大(n兀与n(1-兀)均≥5),二项分布接近正态分布。
3)泊松分布也是一种重要的离散型分布,用于描述单位时间或空间内某稀有事件发生数的概率分布。若随机变量X的概率函数为:
则称X服从参数为μ的泊松分布,记为X~Ⅱ(μ)。泊松分布Ⅱ(μ)的总体均数和方差相等,即μ=σ²。
特征:
泊松分布具有可加性:可将若干个互相独立的小观察单位合并成一个大的观察单位,从而使参数μ≥20,以便将服从泊松分布的资料近似地按正态分布处理。
4)在样本量较大,且满足一定条件的情况下二项分布和泊松分布都可以作近似正态分布处理;泊松分布是二项分布的极端分布。
2、随机变量服从二项分布和泊松分布的条件是什么?
答:如题1第2)、3)两小项所示。
3、将二项分布、泊松分布作近似正态分布处理的适用条件分别是什么?
答:1)据中心极限定理,在n很大时[nπ与n(1-π)均大于或等于5],二项分布接近于正太分布[N(nπ,nπ(1-π)]。
2)当μ=20时,泊松分布接近于正态分布;当μ=50时,可以认为泊松分布呈正态分布。由此,在实际工作中,当μ≥20时,就可以用正态分布来近似地处理泊松分布问题。
第5章 统计图与统计表
一、名解
1、Statistical table统计表:指将统计资料或统计指标及其取值以特定表格的形式列出,以简单明了的方式来表达研究结果。便于对比分析、便于计算。
编制统计表的原则:1)重点突出,简单明了;2)主谓分明,层次清楚,符合逻辑。
2、simple table简单表:统计表的主语只有一个层次,即只按单一特征或标志分组。
3、Combinative table:统计表的主语有两个或两个以上的层次,即按两个或两个以上主要标志分组。
4、Statistical chart统计图:是用点的位置、线段的升降、直条的长短或面积的大小等各种图形直观地反映分析事物间的数量关系、分布情况、发展变化的趋势等特征,易于读者理解、比较和记忆。
二、简答
1、请简述统计表的基本结构及制表的注意事项。
答:统计表由标题、标目、线条和数字四部分构成,必要时可附有备注。制表注意事项:
1)标题应概括表的主要内容,标题前面通常应加以编号,若表中的数值单位都一样时可把单位统一写在标题后面;
2)标目应文字简明,层次清楚;
3)线条不宜过多,特别是不能有竖线和斜线;
4)表中不宜留空格;
5)备注不为表的必备内容。
2、请简述统计图的基本结构及绘制统计图的注意事项。
答:统计图通常由标题、图域、标目和图例组成。制图的注意事项:
1)首先应根据资料的性质和研究目的,选择合适的统计图;
2)比较不同事物时,要用不同的线条、图案或颜色表示,并用图例说明;
3)同一个统计图中,线条和图案不宜过多;
4)条图、直方图的纵坐标应从0开始;
5)绘制直方图时组距应相等。
3、常用统计图:直条图、圆图、百分比条图、线图、直方图、箱式图等
第6章 参数估计
一、名解
1、sampling error抽样误差:由个体差异产生、随机抽样造成的样本统计量与总体参数间的差异,称为抽样误差。抽样误差不可避免但可以控制。
2、standard error,SE 标准误:样本统计量的标准差。
3、standard error of mean,SEM均数的标准误:反应均数抽样误差大小的指标为均数的标准误。
4、率的标准误:反应率抽样误差大小的指标为率的标准误。
5、parameter estimation参数估计:是指由样本统计量估计总体参数,有点(值)估计和区间估计两种方法。
6、Point estimation点估计:用样本统计量直接作为相应总体参数的估计值。
7、Interval estimation区间估计/置信区间/confidence interval可信区间:按预先给定的概率(1-α)确定一个包含未知总体参数的范围。该范围称为参数的置信区间或可信区间,预先给定的概率1-α称为置信度或可信度。
二、简答
1、中心极限定理
1)从正态总体中作随机抽样,则样本均数服从正态分布;
从偏态总体中作随机抽样,样本含量足够大(n>50)则样本均数近似服从正态分布;
2)从总体均数为μ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的总体均数为μ,标准差为
2、样本均数的标准误与原变量的标准差有何区别与联系?
区别:
A意义上:标准差是描述个体变量值的离散程度的指标;标准误是描述样本均数的离散程度的指标
3)标准差可用来估计医学参考值范围,变异系数和标准误
标准误可用来估计总体均数的置信区间和假设检验
C两者的表示符号、计算公式以及与样本含量n 的关系不同:标准差:S;标准误:
联系:标准差与标准误都是描述说明变异的指标
当样本含量不变时,标准差越大,标准误越大。
答案二:
原变量的标准差用于描述一组数据的离散趋势(或变异程度),是一次抽样得到的样本里所有个体;样本均数的标准误是样本均数的标准差,它反映样本间的离散程度,也反映样本均数与相应总体均数间的差异,是多次抽样得到的多个样本。均数标准误的大小与标准差的大小呈正比。
3、t分布的特点有哪些?
答:1)以0为中心,左右对称,单峰分布。
2)t分布曲线的形态取决于自由度ν的大小,ν越小,t值分布越离散,曲线峰部越矮而尾部翘得越高;ν越大,t值分布越趋于集中,峰部高而尾部下垂。
3)当ν增大为∞时,t分布即呈标准正态分布,故标准正态分布是t分布的特例。
4、总体均数的置信区间与医学参考值范围有何区别?
答:区别点:
1)含义:
总体均数的置信区间:是按预先给定的概率确定的位置参数μ的可能范围,实际上一次抽样算得的置信区间要么包含了总体均数,要么不包含。但可以说:当α=0.05时,95%置信区间估计正确的概率为0.95,估计错误的概率为0.05,即有95%的可能性包含了总体均数。总体均数的置信区间是总体均数的估计范围。
医学参考值范围:是“正常人”的解剖、生理、生化等某项指标的波动范围,是个体值的波动范围。
2)计算公式:
3)用途:前者用于估计总体均数,可间接进行假设检验;后者是判定某项指标正常或异常的参考标准。
5、可信区间的确切含义
1)95%的可信区间的理解:
所要估计的总体参数有95%的可能在我们所估计的可信区间内
从正态总体中随机抽取100个样本,可算得100个样本的均数和标准差,也科算得100个均数的可信区间内,平均约有95个可信区间包含了总体参数。
2)可信区间的两个要素:
A、准确度:用可信度(1-α)表示,即区间包含总体均数μ的理论概率大小(越接近1越好)
B、精确度(即区间宽度):区间越窄越好,如95%的可信区间比99%的可信区间好。
当n确定时,上述准确度和精确度互相矛盾。提高准确度则精确度降低,势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%好。
要提高精确度和准确度,可通过增大样本含量。
第7章 计量资料两组均数的比较
一、名解
1、Hypothesis test假设检验/显著性检验:对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设。是由样本的信息推断样本所代表的总体是否存在差别的统计学方法。
2、P值:是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。
3、Type I errorⅠ型错误:当假设检验结论为拒绝H0时,有可能拒绝了事实上成立的H0,此类错误称为Ⅰ型错误。弃真
4、Type IIerrorⅡ型错误:当假设检验不拒绝H0时,有可能没有拒绝事实上不成立的H0,此类错误称为Ⅱ型错误。存伪
5、Testing level检验水准/significance level显著性水平:检验水准即α,α是根据检验需要事先选定并确定为小概率事件的水准,通常取0.05或0.01。
6、Power of a test检验效能:1-β称为检验效能,也称为把握度,是指当两总体参数确有差别(即事实上H0不成立)时,按α水准通过假设检验能发现他们有差别(即拒绝H0)的概率。
7、Homogeneity of variance方差齐性:样本间总体方差相等。
8、Normality tests正态性检验:判定样本资料是否服从正态分布。
9、Homogeneity test of variance方差齐性检验:根据样本信息牌推断他们所代表的各自总体的方差是否相等的方法,称为方差齐性检验。常用方法有F检验,Bartlett x2检验,Levene检验。
二、简答
1、简述假设检验的基本思想与步骤。
基本思想:假设检验基于小概率、反证法的原理对样本差异是否有统计学意义进行判断,进而推断样本所来自的总体是否不同。
假设检验的一般步骤为:
1)建立检验假设,确定检验水准;
H0:μ=μ0,通常是对总体的阴性假定,含有相同、相等等词汇,又称为无效假设
H1:
是H0的对立假设,含有不同、大于、小于等词汇,又称为备择假设
α=0.05 检验水准:事先规定的一个小概率值,用α表示,通常取0.01或0.05
2)计算检验统计量;
不同资料类型,不同设计类型,计算统计量的公式和方法不同
3)确定P值,作出统计推断。
P值的意义,如果总体状况和H0一致,统计量获得现有数值以及更不利于H0数值的可能性(概率)有多大?
查界值表,比较统计量值与界值大小,判断P与α大小。
阐述所得结果的临床意义。
2、简述假设检验与置信区间的关系。
答:假设检验是根据比较样本差异来推断总体参数是否不同,而置信区间则根据样本信息估计总体参数所在范围。假设检验和置信区间从两个不同方面进行描述和分析,但检验效果是等价的。
第8章 计量资料多组均数的比较——方差分析
一、名解:
1、组间变异:反映实验处理因素引起的变异,也包括了随机误差引起的变异。其大小用各组均数与总均数的离差的平方和表示。
2、组内变异:仅反映随机误差,又称误差变异。
3、均方:总变异、组间变异和误差变异的大小均与各自的自由度有关,因此将各类变异除以相应的自由度,即为各自的均方(mean square,MS),反映平均变异的大小。
4、Homogeneity of variance方差齐性:方差分析中,各样本的总体方差相等,即方差齐性。
5、Analysis of variance,ANOVA方差分析:以F值为统计量,通过对数据变异(离均差平方和)的分解来判断不同样本所代表的总体均值是否相同的一种假设检验方法,主要用于两个或多个均数差异的比较。
二、填空
1、方差分析的主要设计类型:
完全随机设计:单因素方差分析;
随机区组设计:多因素方差分析。
三、简答
1、简述方差分析的基本思想及应用条件。
答:基本思想:将全部观察值之间的总变异分解为两个或多个部分,除随机误差外,其余每个部分的变异都可由处理因素或非处理因素的作用加以解释,通过比较要研究的处理因素所引起变异的均方与随机误差引起变异的均方,借助F分布作出统计推断,以判断该处理因素对效应指标是否有影响。
应用条件:1)各样本相互独立,均服从正态分布;2)各样本的总体方差相等,即方差齐性。当资料不满足以上条件时,应考虑变量变化或非参数检验方法。
方差分析的用途:1)用于多个样本均数(或两个)的比较;2)用于分析两个或多个研究因素间的交互作用;3)用于回归方程的假设检验;4)用于方差齐性检验。
2、在随机区组设计的方差分析中,MS总、MS处理、MS区组及MS误差的含义是什么?
答:MS总为总均方,MS处理为组间均方、MS区组为区组均方(区组因素包括控制因素、非处理因素或混杂因素),MS误差为组内均方。
方差分析的统计量F=MS处理/MS误差
3、多组均数间差别有统计学意义时,其两两比较的检验方法和两均数t检验有何不同?
答:所有均数间两两比较常用SNK检验,也称q检验,如果直接使用两均数t检验法,将增加犯Ⅰ型错误的概率。
第9章 分类变量资料的比较——卡方检验
一、名解
二、简答
1、简述Χ²的基本原理。
答:Χ²检验的基本思想是:在H0成立的条件下,两独立样本的总体率π1、π2,可以看作来自总体参数为π的同一总体。在此条件下,经从同一总体随机抽样所得的两个样本率在一般情况下应相差不大, 两独立样本所对应的四格表实际频数和理论频数(A-T)在一般情况下相差也不大。Χ²值反映了理论频数和实际频数的吻合程度。
4、对于四格表资料,如何正确选用检验方法?
答:对于四格表资料,当n≥40且所有T≥5时,近似程度比较好,可用普通Χ²检验;当n≥40,但有1≤T<5时,计算的P值可能偏小,需要进行连续性校正;当n<40或有T<1时,一般不用Χ²检验,改用确切概率法计算。
5、简述行×列表资料的Χ²检验应注意的事项。
答:1)对于行×列表多个样本率/构成比比较的Χ²检验,不能有1/5以上的格子理论频数小于5,或者不能有一个格子的理论频数小于1,否则易出现偏倚。如出现上述情况,可通过软件计算确切概率。
2)对于单向有序两组或多组构成比资料的比较,一般采用CMH方法计算行平均分检验统计量进行分析,也可以进行秩和检验、Ridit分析等。
3)分类变量资料的关联性检验比较特殊,应根据不同的设计和资料特点选择相应的统计量。
第10章 基于秩次的非参数统计方法
一、名解
1、parametric test参数检验/参数统计:对于总体分布类型已知的资料,用相应于参数的统计量来估计参数所在范围或推断参数有无差别的统计方法。如t检验、F检验、z检验。
2、Nonparametric test非参数检验/distribution-free test任意分布检验:不考虑总体的分布和总体的分布类型,而是对样本所代表的总体的分布或分布位置进行假设检验。
3、Rank sum test秩和检验:基于秩次,通过编秩,用秩次代替原始数据信息进行检验,即检验各组的平均秩是否相等。
二、简答
1、请简述参数检验与非参数检验的区别,各自的优缺点。
答:参数检验特点有:1)对总体参数进行估计或检验是统计推断的主要目的;2)要求总体分布已知;3)统计量有明确的理论依据;4)有严格的使用条件。
非参数检验并不考虑总体的参数和总体的分布类型,而是对样本所代表的总体的分布或分布位置进行假设检验,这类方法不受总体参数的限制。
非参数检验的主要优点有:1)适用范围广;2)受限条件少;3)具有稳健性;4)方法简便,易于理解和掌握。当资料满足参数检验条件时,参数检验效能比非参数检验更高。
2、请简述非参数检验适用范围。
答:非参数检验可应用于:
1)总体分布形式未知或分布类型不明确的计量资料;
2)偏态分布资料;
3)等级资料即不能准确测量,只能按严重程度、优劣等级、次序先后等表示的资料;
4)不满足参数检验条件的资料,如各组方差明显不齐的资料;
5)甚至个别数据较大或数据的一端或两端是不确定数值。
3、两组或多组有序分类资料的比较,为什么宜用秩合检验而不用Χ²检验?
答:卡方检验:各格子之间没有大小、方向的区别,因而其检验各组的构成比是否一致。也就是说如果用卡方来分析两组有序资料,只能得到两组间不同疗效等级构成不同,而得不到谁好谁差的结论。秩和检验:考虑到疗效大小,将其进行排秩,因而可以比较出疗效的好坏。故宜用秩合检验而不用Χ²检验。
6、对同一资料,出自同一研究目的,用参数检验和非参数检验所得结果不一致时,应以哪种方法为准?
答:如果该资料满足参数检验的条件,应以参数检验为准,因为参数检验的效能更高;如果该资料不满足参数检验的条件,应以非参数检验为准,因为非参数检验的稳健性更好。
第11章 两变量之间的关系的分析——相关与回归
一、名解
1、Pearson相关系数:也叫积差相关系数,用来说明两个变量间线性相关关系的密切程度与相关方向。
2、回归系数:在回归方程
中,b称为样本的回归系数,是回归直线的斜率,其统计学意义是当X变化一个单位时Y的平均增加或减少。
3、决定系数:通常用R²表示,其计算公示为:R²=SS回/SS总,说明当Y的离均差平方和SS总不变时,回归平方和SS回的大小取决于R²。R²越接近1说明Y的变异由于自变量的变化引起Y的变化越大,两者的关系越大。
二、简单
1、请简述简单线性相关和简单线性回归的区别和联系。
答:1)区别:①在资料要求上,回归分析要求因变量(Y变量)服从正态分布的随机变量,自变量(X变量)可以是固定的非随机变量,一般称为Ⅰ型回归模型。当两个变量X、Y为服从双变量正态分布的随机变量时,这种资料若要进行回归分析,一般称为Ⅱ型回归模型。两个回归方程的计算式如下:
②在应用上,说明两变量间依存变化的数量关系用回归分析,说明变量间的相互关系用相关分析。
4、2)联系:①对一组数据若同时计算r和b,它们的正负号是一致的,r为正,说明两变量间的相互关系是同向变化的。b为正,说明X增加一个单位,Y平均增加b 个单位。②r和b的假设检验是等价的,即对同一样本,两者的t值相等。由于r的假设检验既可直接查表,计算又比较方便,而b的假设检验计算较繁,故在实际应用中常以r的假设检验代替对Ⅱ型回归模型中b的假设检验。③用回归解释相关。R²表示决定系数,其计算公示为:R²=SS回/SS总,说明当Y的离均差平方和SS总不变时,回归平方和SS回的大小取决于R²。SS回是由于引入了相关自变量X而使Y的总平方和减少的部分。R²越接近1说明Y的变异由于自变量的变化引起Y的变化越大,两者的关系越大。
2、请简述Spearman等级相关对资料的要求。
答:主要用于解决名称数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。