一直不是特别理解泊松分布,只知道分布函数的公式。最近听了可汗学院的两节讲解,根据自己的理解记录一下。
文后有可汗学院公开课链接。
1. 定义
【维基百科】 泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。
2. 理解
举个例子:求某道路某地点每小时经过车辆数的分布。
1.求的是什么的分布
随机变量 X:每小时经过的车辆数
密度函数:P(X=k):每小时经过k量车的概率
所以实际上求的就是每小时经过k辆车的概率分布。
2.与投掷多次硬币事件有什么关系
Note:
投掷多次硬币(假设60次)的时候,每次投掷都是独立的,正面概率为p,我们将投掷60次硬币,获得多少正面记为随机变量X,得到的概率分布为二项分布。同样的,我们可以将“每小时经过的车辆数”看成是60分钟里,每分钟经过车辆数的和。我们将每分钟内有车经过指定地点看成事件成功,而没有车经过看成事件失败。一个小时,看成是独立重复60次试验。将这个问题转化为一个二项分布问题。
3. 如何求独立时间成功概率p
Note:
通过观察已知平均每小时通过的车辆数为ℷ,ℷ为数学期望,因为符合二项分布,所以数学期望ℷ=np
每个单位时间内某指定地点经过车辆的概率为ℷ/n, n为将1小时划分为多少个单位时间段。
4. 问题的转化
假设求解P(X=3)每小时经过3辆车的概率。
将一小时划分成60分钟,密度函数转化为(从60分钟里挑选出 3 个 1 分钟的可能组合数)* 任意一分钟有车经过的概率(ℷ/60)* 任意一分钟没有车经过的概率(1-ℷ/60)
这可能存在的问题是,每分钟不止经过一辆车,单次时间的概率总是为1。
我们可以继续将时间段变小,变成秒,则密度函数为:(从3600秒里挑选出 3 秒的可能组合)* 任意一秒有车经过的概率(ℷ/3600)* 任意一秒没有车经过的概率(1-ℷ/3600)
这可能还是存在问题,可能每一秒都不止一辆车通过。
所以我们需要将时间段无限细分,就像是抛掷无数次硬币,求解得到正面为k次的分布。
3. 公式推导
lim n − > ∞ ( k n ) ∗ ( λ n ) k ∗ ( 1 − λ n ) n − k = lim n − > ∞ n ! ( n − k ) ! k ! ∗ λ k n k ∗ ( 1 − λ n ) n ∗ ( 1 − λ n ) − k = lim n − > ∞ n ( n − 1 ) . . . ( n − k + 1 ) n k ∗ λ k k ! ∗