Bootstrap

概论(二)随机变量

1.名词解释

1.1 样本空间

一次具体实验中所有可能出现的结果,构成一个样本空间。

1.2 随机变量

把结果抽象成数值,结果和数值的对应关系就形成了随机变量X。例如把抛一次硬币的结果,正面记为1,反面记为0。有变量相对应的就有自变量,此处我们不用Y而是用P(X)来表示,P(X)就是X取某值时的概率。

1.3 结果轴

随机变量X作为结果是均匀分布在x轴上的,有的是x轴上某一段,甚至只是x轴上的两个点,例如抛硬币只有两种结果,所以对应在x轴上只有两个点x=1或x=0。有的结果可以遍布整个x轴。

误区:在写这段的时候莫名地把正态分布认为是标准正太分布,想到人的身高是符合正太分布的,但又考虑到人的身高不可能有负数,所以大脑就迷糊了。

1.4 概率密度函数PMF

结果是在x轴上均匀分布的,但是每次实验取得结果的可能性却不一定相同,拿离散变量中连续抛两次硬币的结果统计,显然

第一次正第一次反
第二次正1/41/4
第二次反1/41/4

所以一正一反的概率为1/2,X取不同值P(X)随之相应变化,这就构成了概率函数,为什么叫概率密度函数呢?我门可以想象一条由无数个密度不同的铁点焊接成的铁丝,我们任选铁丝其中一点这就类似于随机变量X的取值,该点的密度就类似于概率P(X)

2.常见分布

2.1 常见离散分布

离散分布的概率计算是有限种结果的概率累加
P ( X ∣ X ≤ x n ) = ∑ i = 1 n P ( x i ) P(X|X\le x_n)=\sum_{i=1}^{n}P(x_i) P(XXxn)=i=1nP(xi)

2.1.1 二项分布

2.1.2 几何分布

2.1.3 泊松分布

泊松分布是n很大,p很小的二项分布的近似,其中 λ = n p \lambda=np λ=np

2.2 常见连续分布

连续分布无法通过直接累加进行计算,因为其包含无数种可能,所以我们利用积分的形式进行计算。

2.2.1 均匀分布

2.2.2 指数分布

2.2.3正态分布(高斯分布)

  • 一元高斯分布
  • 多元高斯分布
    X X X有多个维度 x 1 , x 2 , . . . x p x_1,x_2,...x_p x1,x2,...xp X X X可以有n个,所以构成了n*p的矩阵
    X = [ x 11 x 12 x 13 . . . x 1 p x 21 x 22 x 23 . . . x 2 p . . . . . . . . . . . . x n 1 x n 2 x n 3 . . . x n p ] X=\begin{bmatrix} x_{11}&x_{12}&x_{13}&...x_{1p}\\ x_{21}&x_{22}&x_{23}&...x_{2p}\\ ...&...&...&...\\ x_{n1}&x_{n2}&x_{n3}&...x_{np} \end{bmatrix} X= x11x21...xn1x12x22...xn2x13x23...xn3...x1p...x2p......xnp

对比一元高斯矩阵期望 μ 4 \mu4 μ4%此时的 μ = [ μ 1 μ 1 2 . . . u n ] \mu=\begin{bmatrix} \mu_1\\\mu_12\\...\\u_n \end{bmatrix} μ= μ1μ12...un ,是一个向量。

对比一元高斯矩阵的方差 σ 2 \sigma^2 σ2,多元高斯分布的是协方差矩阵,同样是一个对称矩阵
∑ = [ σ 11 σ 12 σ 13 . . . σ 1 p σ 21 σ 22 σ 23 . . . σ 2 p . . . . . . . . . . . . σ p 1 σ p 2 σ p 3 . . . σ p p ] \sum = \begin{bmatrix} \sigma_{11}&\sigma_{12}&\sigma_{13}&...\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\sigma_{23}&...\sigma_{2p}\\ ...&...&...&...\\ \sigma_{p1}&\sigma_{p2}&\sigma_{p3}&...\sigma_{pp} \end{bmatrix} = σ11σ21...σp1σ12σ22...σp2σ13σ23...σp3...σ1p...σ2p......σpp

概率密度函数
p ( x ∣ θ ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(x|\theta)=\frac{1}{(2 \pi)^{\frac{p}{2}}|\Sigma |^{\frac{1}{2}}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)] p(xθ)=(2π)2p∣Σ211exp[21(xμ)TΣ1(xμ)]

3. 二维分布

随机变量X和Y, P ( X = x i , Y = y i ) P(X=x_i,Y=y_i) P(X=xi,Y=yi)表示两件事同时发生概率,又称联合分布概率, P ( X = x i ∣ Y = y i ) P(X=x_i|Y=y_i) P(X=xiY=yi)表示Y=y发生的条件下X=x的发生概率,又称条件概率。 P ( X = x i ) P(X=x_i) P(X=xi)成为边缘分布概率。
条件分布 = 联合分布 边缘分布 条件分布=\frac{联合分布}{边缘分布} 条件分布=边缘分布联合分布

得明白一个事情,就是如果X与Y没有交集那么对于二维分布来说就没有太多讨论的意义,因为两者的条件分布和联合分布概率都为0,边缘分布就是内部 P ( X = x i ) 或 ( Y = y i ) P(X=x_i)或(Y=y_i) P(X=xi)(Y=yi)
请添加图片描述

Q1:如果X和Y有交集,那 P ( X = x 5 , Y = y 5 ) P(X=x_5,Y=y_5) P(X=x5,Y=y5)等于 P ( X = x 5 ∣ Y = y 5 ) P(X=x_5|Y=y_5) P(X=x5Y=y5)吗?
P ( X = x 5 , Y = y 5 ) P(X=x_5,Y=y_5) P(X=x5,Y=y5)的样本空间大小是55=25个,而 P ( X = x 5 ∣ Y = y 5 ) P(X=x_5|Y=y_5) P(X=x5Y=y5)的样本空间大小是51=5个

在这里插入图片描述

3.2 独立与相关

独立不代表两者不相容,两者不相容也不能证明两者独立
独立一定不相关,不独立一定相关,相关不一定不独立

X与Y独立,分别从离散和连续两个方面请证明:
E ( X + Y ) = E X + E Y E(X+Y)=EX+EY E(X+Y)=EX+EY
E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
V ( X + Y ) = V ( X ) + V ( Y ) V(X+Y)=V(X)+V(Y) V(X+Y)=V(X)+V(Y)

3.3 协方差

方差:
V [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 − 2 X E [ X ] + ( E [ X ] ) 2 ] = E [ X 2 ] − 2 ( E [ X ] ) 2 + ( E [ X ] ) 2 = E [ X 2 ] − ( E [ X ] ) 2 V[X]=E[(X-E[X])^2]=E[X^2-2XE[X]+(E[X])^2]=E[X^2]-2(E[X])^2+(E[X])^2=E[X^2]-(E[X])^2 V[X]=E[(XE[X])2]=E[X22XE[X]+(E[X])2]=E[X2]2(E[X])2+(E[X])2=E[X2](E[X])2
协方差:
c o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] cov(X,Y)=E[(X-E(X))(Y-E(Y))] cov(X,Y)=E[(XE(X))(YE(Y))]

体会两者的不同

3.4 协方差矩阵

如果随机变量的个数提高到n个,则需要单独计算每个变量之间的协方差,同样也需要计算自己与自己的协方差,根据公式可知自己与自己的协方差就是方差,如此我们就构建了一个对称矩阵,称为协方差矩阵。

;