Bootstrap

【机器学习】 一文读懂朴素贝叶斯

【机器学习】 一文读懂朴素贝叶斯

贝叶斯定理

  • 贝叶斯公式: P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
  • 推理过程如下:
    P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \dfrac{P(AB)}{P(B)} P(AB)=P(B)P(AB),即“ 在 B 的条件下 A 的概率 = 同时发生 A B 的概率 发生 B 的概率 在B的条件下A的概率=\dfrac{同时发生AB的概率}{发生B的概率} B的条件下A的概率=发生B的概率同时发生AB的概率
    同理有, P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \dfrac{P(AB)}{P(A)} P(BA)=P(A)P(AB)
    因此有, P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(A|B)P(B)= P(B|A)P(A) P(AB)P(B)=P(BA)P(A)
    因此有, P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
  • 先验概率
    P ( B ) P(B) P(B) P ( A ) P(A) P(A)都可以称为先验概率。先验概率,即没做实验之前,做一个概率预判
  • 后验概率
    P ( A ∣ B ) P(A|B) P(AB)称为后验概率。后验概率,即经过实验,或经过观察之后,得到一个概率。这里 P ( A ∣ B ) P(A|B) P(AB)可理解为观察到B发生了,结果是A的概率。那么 P ( B ∣ A ) P(B|A) P(BA)的含义可理解为结果是A,有多大可能发生B P ( B ∣ A ) P(B|A) P(BA)可以称为似然度,也可写做 L ( A ∣ B ) L(A|B) L(AB)

朴素贝叶斯算法

  • 将贝叶斯定理带入应用场景:
    假设一组待分类embedding有128个维度,即 F i = ( x 0 , x 1 , x 2 , . . . , x 127 ) F_i=(x_0, x_1, x_2, ..., x_{127}) Fi=(x0,x1,x2,...,x127),简单的将128个维度中的每一个看作一个特征,使用朴素贝叶斯算法做3分类任务,有:
    P ( 为类别 0 的概率 ∣ x 0 , x 1 , x 2 , . . . x 127 ) = P ( x 0 , x 1 , x 2 , . . . x 127 ∣ 为类别 0 的概率 ) P ( 为类别 0 的概率 ) P ( x 0 , x 1 , x 2 , . . . x 127 ) P(为类别0的概率| x_0, x_1, x_2, ... x_{127} )=\dfrac{P(x_0, x_1, x_2, ... x_{127} |为类别0的概率)P(为类别0的概率)}{P(x_0, x_1, x_2, ... x_{127})} P(为类别0的概率x0,x1,x2,...x127)=P(x0,x1,x2,...x127)P(x0,x1,x2,...x127为类别0的概率)P(为类别0的概率)
    P ( 为类别 1 的概率 ∣ x 0 , x 1 , x 2 , . . . x 127 ) = P ( x 0 , x 1 , x 2 , . . . x 127 ∣ 为类别 1 的概率 ) P ( 为类别 1 的概率 ) P ( x 0 , x 1 , x 2 , . . . x 127 ) P(为类别1的概率| x_0, x_1, x_2, ... x_{127} )=\dfrac{P(x_0, x_1, x_2, ... x_{127} |为类别1的概率)P(为类别1的概率)}{P(x_0, x_1, x_2, ... x_{127})} P(为类别1的概率x0,x1,x2,...x127)=P(x0,x1,x2,...x127)P(x0,x1,x2,...x127为类别1的概率)P(为类别1的概率)
    P ( 为类别 2 的概率 ∣ x 0 , x 1 , x 2 , . . . x 127 ) = P ( x 0 , x 1 , x 2 , . . . x 127 ∣ 为类别 2 的概率 ) P ( 为类别 2 的概率 ) P ( x 0 , x 1 , x 2 , . . . x 127 ) P(为类别2的概率| x_0, x_1, x_2, ... x_{127} )=\dfrac{P(x_0, x_1, x_2, ... x_{127} |为类别2的概率)P(为类别2的概率)}{P(x_0, x_1, x_2, ... x_{127})} P(为类别2的概率x0,x1,x2,...x127)=P(x0,x1,x2,...x127)P(x0,x1,x2,...x127为类别2的概率)P(为类别2的概率)
  • 其中 P ( x 0 , x 1 , x 2 , . . . x 127 ) P(x_0, x_1, x_2, ... x_{127}) P(x0,x1,x2,...x127) P ( 为类别 0 的概率 ) P(为类别0的概率) P(为类别0的概率) P ( 为类别 1 的概率 ) P(为类别1的概率) P(为类别1的概率) P ( 为类别 2 的概率 ) P(为类别2的概率) P(为类别2的概率)是先验概率,是定值。因为上述三个公式右边分母相同为 P ( x 0 , x 1 , x 2 , . . . x 127 ) P(x_0, x_1, x_2, ... x_{127}) P(x0,x1,x2,...x127),可忽略。根据独立同部分假设,可使用训练数据的 P ( 为类别 0 的概率 ) P(为类别0的概率) P(为类别0的概率) P ( 为类别 1 的概率 ) P(为类别1的概率) P(为类别1的概率) P ( 为类别 2 的概率 ) P(为类别2的概率) P(为类别2的概率)作为后验概率带入公式计算。
  • 假设128个特征相互独立,有:
    P ( 为类别 0 的概率 ∣ x 0 , x 1 , x 2 , . . . x 127 ) ∝ P ( 为类别 0 的概率 ) ∗ ∏ i = 0 127 P ( x i ∣ 为类别 0 的概率 ) P(为类别0的概率| x_0, x_1, x_2, ... x_{127} )\propto P(为类别0的概率) *\prod_{i=0}^{127}P(x_i |为类别0的概率) P(为类别0的概率x0,x1,x2,...x127)P(为类别0的概率)i=0127P(xi为类别0的概率)
    P ( 为类别 1 的概率 ∣ x 0 , x 1 , x 2 , . . . x 127 ) ∝ P ( 为类别 1 的概率 ) ∗ ∏ i = 0 127 P ( x i ∣ 为类别 1 的概率 ) P(为类别1的概率| x_0, x_1, x_2, ... x_{127} )\propto P(为类别1的概率) *\prod_{i=0}^{127}P(x_i |为类别1的概率) P(为类别1的概率x0,x1,x2,...x127)P(为类别1的概率)i=0127P(xi为类别1的概率)
    P ( 为类别 2 的概率 ∣ x 0 , x 1 , x 2 , . . . x 127 ) ∝ P ( 为类别 2 的概率 ) ∗ ∏ i = 0 127 P ( x i ∣ 为类别 2 的概率 ) P(为类别2的概率| x_0, x_1, x_2, ... x_{127} )\propto P(为类别2的概率) *\prod_{i=0}^{127}P(x_i |为类别2的概率) P(为类别2的概率x0,x1,x2,...x127)P(为类别2的概率)i=0127P(xi为类别2的概率)
  • 假设每一个特征都符合一维高斯分布,即
    f ( x i ) = 1 2 π σ ∗ e − ( x − μ ) 2 2 σ 2 f(x_i)=\dfrac{1}{\sqrt{2\pi}\sigma}*e^{-\dfrac{(x-\mu)^2}{2\sigma^2}} f(xi)=2π σ1e2σ2(xμ)2
    Fit过程即,通过计算训练数据中三个类别128个特征各自的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2
  • 对测试样本进行推理时,只需分别计算 P ( 为类别 0 的概率 ) ∗ ∏ i = 0 127 P ( x i ∣ 为类别 0 的概率 ) P(为类别0的概率) *\prod_{i=0}^{127}P(x_i |为类别0的概率) P(为类别0的概率)i=0127P(xi为类别0的概率) P ( 为类别 1 的概率 ) ∗ ∏ i = 0 127 P ( x i ∣ 为类别 1 的概率 ) P(为类别1的概率) *\prod_{i=0}^{127}P(x_i |为类别1的概率) P(为类别1的概率)i=0127P(xi为类别1的概率) P ( 为类别 2 的概率 ) ∗ ∏ i = 0 127 P ( x i ∣ 为类别 2 的概率 ) P(为类别2的概率) *\prod_{i=0}^{127}P(x_i |为类别2的概率) P(为类别2的概率)i=0127P(xi为类别2的概率),值最大的即为高斯朴素贝叶斯分类结果
  • 可根据训练数据更换假设的特征分布类型

结语

如果您有修改意见或问题,欢迎留言或者通过邮箱和我联系。
手打很辛苦,如果我的文章对您有帮助,转载请注明出处。

;