Bootstrap

高斯分布的分解(协方差矩阵和信息矩阵)

多元高斯分布

p ( x ) = 1 ( 2 π ) n ∣ Σ ∣ e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = 1 Z e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ∝ e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) = e x p ( − 1 2 ( x T Σ − 1 x − 2 μ T Σ − 1 x + μ T Σ − 1 μ ) ) ∝ e x p ( − 1 2 x T Σ − 1 x + μ T Σ − 1 x ) = e x p ( − 1 2 x T Λ x + η T x ) ∝ N − 1 ( η , Λ ) ∝ N ( μ , Σ ) \begin{split} p(\pmb x) &= \frac{1}{\sqrt{(2\pi)^n| {\pmb \Sigma} |}}exp(-\frac12{({\pmb x}-{\pmb \mu})^T{\pmb \Sigma^{-1}}({\pmb x}-{\pmb \mu})} \\ &= \frac1Z exp(-\frac12{({\pmb x}-{\pmb \mu})^T{\pmb \Sigma^{-1}}({\pmb x}-{\pmb \mu})} \\ & \propto exp(-\frac12 ({\pmb x}-{\pmb \mu})^T{\pmb \Sigma^{-1}}({\pmb x}-{\pmb \mu}) ) \\ & = exp(-\frac12 ({\pmb x}^T\pmb\Sigma^{-1}{\pmb x} - 2{\pmb \mu}^T\pmb\Sigma^{-1}{\pmb x} + {\pmb \mu}^T\pmb \Sigma^{-1}{\pmb \mu} )) \\ & \propto exp(-\frac12 {\pmb x}^T \pmb\Sigma^{-1}{\pmb x} + {\pmb \mu}^T\pmb\Sigma^{-1}{\pmb x}) \\ &= exp(-\frac12 {\pmb x}^T\pmb\Lambda{\pmb x} + {\pmb \eta}^T{\pmb x}) \\ & \propto \mathcal{N}^{-1}({\pmb \eta},\pmb\Lambda) \\ & \propto \mathcal{N}({\pmb \mu},\pmb\Sigma) \end{split} p(x)=(2π)nΣ 1exp(21(xμ)TΣ1(xμ)=Z1exp(21(xμ)TΣ1(xμ)exp(21(xμ)TΣ1(xμ))=exp(21(xTΣ1x2μTΣ1x+μTΣ1μ))exp(21xTΣ1x+μTΣ1x)=exp(21xTΛx+ηTx)N1(η,Λ)N(μ,Σ)
其中:
η = Σ − 1 μ Λ = Σ − 1 \begin{split} {\pmb \eta} &= {\pmb \Sigma}^{-1} {\pmb \mu} \\ \pmb\Lambda &= {\pmb \Sigma}^{-1} \end{split} ηΛ=Σ1μ=Σ1

边际概率与条件概率

协方差矩阵表达

x \pmb x x拆分
p ( x ) = p ( [ x a x b ] ) ∝ e x p ( − 1 2 [ x a − μ a x b − μ b ] T [ Σ a a Σ a b Σ b a Σ b b ] − 1 [ x a − μ a x b − μ b ] ) = e x p ( − 1 2 [ x a − μ a x b − μ b ] T [ I − Σ a a − 1 Σ a b 0 I ] [ Σ a a − 1 0 0 Δ a a − 1 ] [ I 0 − Σ b a Σ a a − 1 I ] [ x a − μ a x b − μ b ] ) = e x p ( − 1 2 [ a b ] T [ I − Σ a a − 1 Σ a b 0 I ] [ Σ a a − 1 0 0 Δ a a − 1 ] [ I 0 − Σ b a Σ a a − 1 I ] [ a b ] ) = e x p ( − 1 2 [ a T b T − a T Σ a a − 1 Σ a b ] [ Σ a a − 1 0 0 Δ a a − 1 ] [ a b − Σ b a Σ a a − 1 a ] ) = e x p ( − 1 2 [ a T Σ a a − 1 a + ( b − Σ b a Σ a a − 1 a ) T Δ a a − 1 ( b − Σ b a Σ a a − 1 a ) ] = e x p ( − 1 2 a T Σ a a − 1 a ) ⏟ p ( a ) ∗ e x p ( − 1 2 ( b − Σ b a Σ a a − 1 a ) T Δ a a − 1 ( b − Σ b a Σ a a − 1 a ) ) ⏟ p ( b ∣ a ) \begin{split} p(\pmb x) &= p(\begin{bmatrix}\pmb x_a \\ \pmb x_b \end{bmatrix}) \\ &\propto exp(-\frac12 \begin{bmatrix} \pmb x_a - \pmb \mu_a \\ \pmb x_b - \pmb \mu_b \end{bmatrix}^T \begin{bmatrix} \pmb \Sigma_{aa} & \pmb \Sigma_{ab} \\ \pmb \Sigma_{ba} & \pmb \Sigma_{bb} \end{bmatrix}^{-1} \begin{bmatrix} \pmb x_a - \pmb \mu_a \\ \pmb x_b - \pmb \mu_b \end{bmatrix}) \\ &= exp(-\frac12 \begin{bmatrix} \pmb x_a - \pmb \mu_a \\ \pmb x_b - \pmb \mu_b \end{bmatrix}^T \begin{bmatrix} \pmb I & -\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab} \\ \pmb 0 & \pmb I \end{bmatrix} \begin{bmatrix} \pmb \Sigma_{aa}^{-1} & \pmb 0 \\ \pmb 0 & \pmb \Delta_{aa}^{-1} \end{bmatrix} \begin{bmatrix} \pmb I & \pmb 0 \\ -\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} & \pmb I \end{bmatrix} \begin{bmatrix} \pmb x_a - \pmb \mu_a \\ \pmb x_b - \pmb \mu_b \end{bmatrix}) \\ &= exp(-\frac12 \begin{bmatrix} \pmb a \\ \pmb b \end{bmatrix}^T \begin{bmatrix} \pmb I & -\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab} \\ \pmb 0 & \pmb I \end{bmatrix} \begin{bmatrix} \pmb \Sigma_{aa}^{-1} & \pmb 0 \\ \pmb 0 & \pmb \Delta_{aa}^{-1} \end{bmatrix} \begin{bmatrix} \pmb I & \pmb 0 \\ -\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} & \pmb I \end{bmatrix} \begin{bmatrix} \pmb a \\ \pmb b \end{bmatrix}) \\ &= exp(-\frac12 \begin{bmatrix} \pmb a^{T} &\pmb b^{T} - \pmb a^{T}\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab} \end{bmatrix} \begin{bmatrix} \pmb \Sigma_{aa}^{-1} & \pmb 0 \\ \pmb 0 & \pmb \Delta_{aa}^{-1} \end{bmatrix} \begin{bmatrix} \pmb a \\ \pmb b -\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} \pmb a \end{bmatrix}) \\ &= exp(-\frac12 [\pmb a^T \pmb \Sigma_{aa}^{-1} \pmb a + (\pmb b-\pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1}\pmb a)^T \pmb \Delta_{aa}^{-1}(\pmb b-\pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} \pmb a)] \\ &= \underbrace {exp(-\frac12 \pmb a^T \pmb \Sigma_{aa}^{-1} \pmb a)}_{p(\pmb a)} * \underbrace {exp(-\frac12 (\pmb b-\pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1}\pmb a)^T \pmb \Delta_{aa}^{-1}(\pmb b-\pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} \pmb a ))}_{p(\pmb b | \pmb a )} \end{split} p(x)=p([xaxb])exp(21[xaμaxbμb]T[ΣaaΣbaΣabΣbb]1[xaμaxbμb])=exp(21[xaμaxbμb]T[I0Σaa1ΣabI][Σaa100Δaa1][IΣbaΣaa10I][xaμaxbμb])=exp(21[ab]T[I0Σaa1ΣabI][Σaa100Δaa1][IΣbaΣaa10I][ab])=exp(21[aTbTaTΣaa1Σab][Σaa100Δaa1][abΣbaΣaa1a])=exp(21[aTΣaa1a+(bΣbaΣaa1a)TΔaa1(bΣbaΣaa1a)]=p(a) exp(21aTΣaa1a)p(ba) exp(21(bΣbaΣaa1a)TΔaa1(bΣbaΣaa1a))

其中:
a = x a − μ a b = x b − μ b b − Σ b a Σ a a − 1 a = x b − ( μ b + Σ b a Σ a a − 1 ( x a − μ a ) ) Δ a a = Σ b b − Σ b a Σ a a − 1 Σ a b \begin{split} \pmb a &= \pmb x_a - \pmb \mu_a \\ \pmb b &= \pmb x_b - \pmb \mu_b \\ \pmb b - \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} \pmb a &= \pmb x_b - ( \pmb \mu_b + \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} (\pmb x_a - \pmb \mu_a) ) \\ \pmb \Delta_{aa} &= \pmb \Sigma_{bb} - \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} \pmb \Sigma_{ab} \end{split} abbΣbaΣaa1aΔaa=xaμa=xbμb=xb(μb+ΣbaΣaa1(xaμa))=ΣbbΣbaΣaa1Σab

结论:

p ( x a ) ∝ N ( μ a , Σ a a ) p ( x b ∣ x a ) ∝ N ( μ b + Σ b a Σ a a − 1 ( x a − μ a ) , Σ b b − Σ b a Σ a a − 1 Σ a b ) ∝ N ( μ b + Σ b a Σ a a − 1 ( x a − μ a ) , Δ a a ) \begin{split} p(\pmb x_a) &\propto \mathcal N(\pmb \mu_a,\pmb \Sigma_{aa}) \\ p(\pmb x_b | \pmb x_a) & \propto \mathcal N(\pmb \mu_b + \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} (\pmb x_a - \pmb \mu_a) , \pmb \Sigma_{bb} - \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} \pmb \Sigma_{ab}) \\ &\propto \mathcal N(\pmb \mu_b + \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} (\pmb x_a - \pmb \mu_a),\pmb \Delta_{aa}) \end{split} p(xa)p(xbxa)N(μa,Σaa)N(μb+ΣbaΣaa1(xaμa),ΣbbΣbaΣaa1Σab)N(μb+ΣbaΣaa1(xaμa),Δaa)

信息矩阵表达

[ Λ a a Λ a b Λ b a Λ b b ] = [ I − Σ a a − 1 Σ a b 0 I ] [ Σ a a − 1 0 0 Δ a a − 1 ] [ I 0 − Σ b a Σ a a − 1 I ] = [ Σ a a − 1 − Σ a a − 1 Σ a b Δ a a − 1 0 Δ a a − 1 ] [ I 0 − Σ b a Σ a a − 1 I ] = [ Σ a a − 1 + Σ a a − 1 Σ a b Δ a a − 1 Σ b a Σ a a − 1 − Σ a a − 1 Σ a b Δ a a − 1 − Δ a a − 1 Σ b a Σ a a − 1 Δ a a − 1 ] \begin{split} \begin{bmatrix} \pmb \Lambda_{aa} & \pmb \Lambda_{ab} \\ \pmb \Lambda_{ba} & \pmb \Lambda_{bb} \end{bmatrix} &= \begin{bmatrix} \pmb I & -\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab} \\ \pmb 0 & \pmb I \end{bmatrix} \begin{bmatrix} \pmb \Sigma_{aa}^{-1} & \pmb 0 \\ \pmb 0 & \pmb \Delta_{aa}^{-1} \end{bmatrix} \begin{bmatrix} \pmb I & \pmb 0 \\ -\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} & \pmb I \end{bmatrix} \\ &= \begin{bmatrix} \pmb \Sigma_{aa}^{-1} & -\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab}\pmb \Delta_{aa}^{-1} \\ \pmb 0 & \pmb \Delta_{aa}^{-1} \end{bmatrix} \begin{bmatrix} \pmb I & \pmb 0 \\ -\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} & \pmb I \end{bmatrix} \\ &= \begin{bmatrix} \pmb \Sigma_{aa}^{-1}+\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab}\pmb \Delta_{aa}^{-1}\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} & -\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab}\pmb \Delta_{aa}^{-1} \\ - \pmb \Delta_{aa}^{-1} \pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} & \pmb \Delta_{aa}^{-1} \end{bmatrix} \\ \end{split} [ΛaaΛbaΛabΛbb]=[I0Σaa1ΣabI][Σaa100Δaa1][IΣbaΣaa10I]=[Σaa10Σaa1ΣabΔaa1Δaa1][IΣbaΣaa10I]=[Σaa1+Σaa1ΣabΔaa1ΣbaΣaa1Δaa1ΣbaΣaa1Σaa1ΣabΔaa1Δaa1]

所以:
Λ b b = Δ a a − 1 Λ a b = − Σ a a − 1 Σ a b Δ a a − 1 Λ b a = − Δ a a − 1 Σ b a Σ a a − 1 Λ a a = Σ a a − 1 + Σ a a − 1 Σ a b Δ a a − 1 ⏟ − Λ a b Σ b a Σ a a − 1 ⏟ − Λ b b − 1 Λ b a = Σ a a − 1 + Λ a b Λ b b − 1 Λ b a Σ a a − 1 = Λ a a − Λ a b Λ b b − 1 Λ b a \begin{split} \pmb \Lambda_{bb} &= \pmb \Delta_{aa}^{-1} \\ \pmb \Lambda_{ab} &= -\pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab}\pmb \Delta_{aa}^{-1} \\ \pmb \Lambda_{ba} &= -\pmb \Delta_{aa}^{-1} \pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1} \\ \pmb \Lambda_{aa} &= \pmb \Sigma_{aa}^{-1} + \underbrace{ \pmb \Sigma_{aa}^{-1} \pmb\Sigma_{ab}\pmb \Delta_{aa}^{-1} }_{-\pmb \Lambda_{ab}} \underbrace{\pmb \Sigma_{ba} \pmb\Sigma_{aa}^{-1}}_{-\pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba} } \\ &= \pmb \Sigma_{aa}^{-1} + \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba} \\ \pmb \Sigma_{aa}^{-1} &= \pmb \Lambda_{aa} - \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba} \\ \end{split} ΛbbΛabΛbaΛaaΣaa1=Δaa1=Σaa1ΣabΔaa1=Δaa1ΣbaΣaa1=Σaa1+Λab Σaa1ΣabΔaa1Λbb1Λba ΣbaΣaa1=Σaa1+ΛabΛbb1Λba=ΛaaΛabΛbb1Λba
有定义:
η = Σ − 1 μ = [ Λ a a Λ a b Λ b a Λ b b ] [ μ a μ b ] [ η a η b ] = [ Λ a a μ a + Λ a b μ b Λ b a μ a + Λ b b μ b ] \begin{split} \pmb \eta &= \pmb \Sigma^{-1} \pmb \mu \\ &= \begin{bmatrix} \pmb \Lambda_{aa} & \pmb \Lambda_{ab} \\ \pmb \Lambda_{ba} & \pmb \Lambda_{bb} \end{bmatrix} \begin{bmatrix} \pmb \mu_a \\ \pmb \mu_b \end{bmatrix} \\ \begin{bmatrix} \pmb \eta_a \\ \pmb \eta_b \end{bmatrix} &=\begin{bmatrix} \pmb \Lambda_{aa}\pmb \mu_a+\pmb \Lambda_{ab}\pmb \mu_b \\ \pmb \Lambda_{ba}\pmb \mu_a+\pmb \Lambda_{bb}\pmb \mu_b \end{bmatrix} \end{split} η[ηaηb]=Σ1μ=[ΛaaΛbaΛabΛbb][μaμb]=[Λaaμa+ΛabμbΛbaμa+Λbbμb]
p ( a ) p(\pmb a) p(a)有:
η = Σ a a − 1 μ a = ( Λ a a − Λ a b Λ b b − 1 Λ b a ) μ a = Λ a a μ a − Λ a b Λ b b − 1 Λ b a μ a = η a − Λ a b μ b − Λ a b Λ b b − 1 ( η b − Λ b b μ b ) = η a − Λ a b Λ b b − 1 η b \begin{split} \pmb \eta &= \pmb \Sigma_{aa}^{-1} \pmb \mu_a \\ &= (\pmb \Lambda_{aa} - \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba}) \pmb \mu_a \\ &= \pmb \Lambda_{aa} \pmb \mu_a - \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba} \pmb \mu_a \\ &= \pmb \eta_a - \pmb \Lambda_{ab} \pmb \mu_b - \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1} (\pmb \eta_b - \pmb \Lambda_{bb} \pmb \mu_b) \\ &= \pmb \eta_a - \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1}\pmb \eta_b \end{split} η=Σaa1μa=(ΛaaΛabΛbb1Λba)μa=ΛaaμaΛabΛbb1Λbaμa=ηaΛabμbΛabΛbb1(ηbΛbbμb)=ηaΛabΛbb1ηb
p ( b ∣ a ) p(\pmb b| \pmb a) p(ba)
η = Δ a a − 1 ( μ b + Σ b a Σ a a − 1 ( x a − μ a ) ) = Λ b b ( μ b + Σ b a Σ a a − 1 ⏟ − Λ b b − 1 Λ b a ( x a − μ a ) ) = η b − Λ b a μ a − Λ b b Λ b b − 1 Λ b a ( x a − μ a ) = η b − Λ b a x a \begin{split} \pmb \eta &= \pmb \Delta_{aa}^{-1}(\pmb \mu_b +\pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} (\pmb x_a - \pmb \mu_a)) \\ &= \pmb \Lambda_{bb}(\pmb \mu_b + \underbrace{ \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1}}_{-\pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba}} (\pmb x_a - \pmb \mu_a)) \\ &= \pmb \eta_b - \pmb \Lambda_{ba} \pmb \mu_a - \pmb \Lambda_{bb}\pmb \Lambda_{bb}^{-1}\pmb \Lambda_{ba}(\pmb x_a - \pmb \mu_a) \\ &= \pmb \eta_b - \pmb \Lambda_{ba} \pmb x_a \end{split} η=Δaa1(μb+ΣbaΣaa1(xaμa))=Λbb(μb+Λbb1Λba ΣbaΣaa1(xaμa))=ηbΛbaμaΛbbΛbb1Λba(xaμa)=ηbΛbaxa

总结

p ( x ) ∝ N ( [ x a x b ] , [ Σ a a Σ a b Σ b a Σ b b ] ) ∝ N − 1 ( [ η a η b ] , [ Λ a a Λ a b Λ b a Λ b b ] ) \begin{split} p(\pmb x) \propto \mathcal N(\begin{bmatrix} \pmb x_a \\ \pmb x_b \end{bmatrix}, \begin{bmatrix} \pmb \Sigma_{aa} & \pmb \Sigma_{ab} \\ \pmb \Sigma_{ba} & \pmb \Sigma_{bb} \end{bmatrix}) \propto \mathcal N^{-1}(\begin{bmatrix} \pmb \eta_a \\ \pmb \eta_b \end{bmatrix}, \begin{bmatrix} \pmb \Lambda_{aa} & \pmb \Lambda_{ab} \\ \pmb \Lambda_{ba} & \pmb \Lambda_{bb} \end{bmatrix}) \end{split} p(x)N([xaxb],[ΣaaΣbaΣabΣbb])N1([ηaηb],[ΛaaΛbaΛabΛbb])

边际概率 p ( x a ) p(\pmb x_a) p(xa)条件概率 p ( x b   x a ) p(\pmb x_b\ \pmb x_a) p(xb xa)
协方差矩阵 μ = μ a Σ = Σ a a \pmb \mu = \pmb \mu_a \\ \pmb \Sigma = \pmb \Sigma_{aa} μ=μaΣ=Σaa μ = μ b + Σ b a Σ a a − 1 ( x a − μ a ) Σ = Σ b b − Σ b a Σ a a − 1 Σ a b \pmb \mu=\pmb \mu_b + \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} (\pmb x_a - \pmb \mu_a)\\ \pmb \Sigma = \pmb \Sigma_{bb} - \pmb \Sigma_{ba} \pmb \Sigma_{aa}^{-1} \pmb \Sigma_{ab} μ=μb+ΣbaΣaa1(xaμa)Σ=ΣbbΣbaΣaa1Σab
信息矩阵 η = η a − Λ a b Λ b b − 1 η b Λ = Λ a a − Λ a b Λ b b − 1 Λ b a \pmb \eta =\pmb \eta_a - \pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1}\pmb \eta_b \\ \pmb \Lambda = \pmb \Lambda_{aa}-\pmb \Lambda_{ab} \pmb \Lambda_{bb}^{-1} \pmb \Lambda_{ba} η=ηaΛabΛbb1ηbΛ=ΛaaΛabΛbb1Λba η = η b − Λ b a x a Λ = Λ b b \pmb \eta = \pmb \eta_b - \pmb \Lambda_{ba} \pmb x_a \\\pmb \Lambda = \pmb \Lambda_{bb} η=ηbΛbaxaΛ=Λbb
;