超几何分布是一种离散型的概率分布,常用于流行病学的研究。
概率函数及图形 若总体含量为N例,其中有M例阳性,N-M例阴性;则从该总体随机抽取(每抽1例不予返回就抽下1例)含量为n的样本时,其中恰有X例阳性的概率为:
式中X的取值是从0与(n-N+M)之较大者开始,直至n与M之较小者为止。又
式(1)称为超几何分布的概率函数。
在上述条件下,如果每抽1例重行返回后再抽下1例,则阳性率M/N=π不变,于是n例中恰有X例阳性的概率分布就成二项分布。对于有限总体来说,超几何分布与二项分布的区别就在于此。
已知N、M与n时就能按式(1)算得取不同X值的概率,从而可画出超几何分布的图形。
根据需要还可算出小于及等于指定值X的下侧累计概率,即其分布函数。如上图中指定X=2,则P(X≤2)
为其分布函数。
为上侧的累计概率。
超几何分布(N=18,
M=7,n=4)
性质
(1)均数μ与方差σ2的计算按式(2)与式(3)。
(2)当n≤N-M时,有如下的递推公式:
有了式(4),就能由p(X-1)递推出p(X)。例如,只要算得超几何分布在X=0的概率,就能依次算出X=1 ,2,…,min(n,M)的概率。超几何分布在X=0的概率有统计表可查,此处从略。
用途
(1)质量检查。如食品、疫苗等质量检查,见例。
(2) 四格表的确切概率计算(见条目“四格表的确切概率法”)。
(3)总体阳性数的估计。当总体含量N已知时,如果抽取一个含量为n(足够大)的样本中有X例阳性,则总体阳性数M的估计量为
M的方差估计量为
(4)总体含量的估计。例如需要调查某一封闭区域有多少能感染钩端螺旋体的黑线姬鼠,可先捕捉一定数量(M)的该鼠。每个鼠做上标志后放还到原地区,再捕捉一个含量为n的样本,观察其中带有上述标志的鼠数X。这样就可按式(7)估计出总体含量N,
例 若某种罐头的合格率要求在99%以上。今从200个罐头中随机抽取4只,检查结果有1只不合格,问这批罐头的质量是否合格?
按99%合格率,200个 (即N)罐头中合格的有200(99%)=198个,不合格的有200-198=2个(即M)。今n=4,于是按式(1)得
按式(4)
本例,M=2,X的取值不能超过2。由此可见,本例发现一只以上不合格的概率为0.0394+0.0003=0.0397,即P<0.05。一般说来,概率这样小的事件在一次抽取中不大会发生。而现在发生了就有理由怀疑:“原来200只中不合格品不止2只”,因而这批罐头的质量可认为是不合格的。