机器学习基于概率论的分类方法：朴素贝叶斯

一、引言：朴素贝叶斯算法

二、朴素贝叶斯概述

2.1 贝叶斯定理

2.2 朴素贝叶斯

一、引言：朴素贝叶斯算法

朴素贝叶斯算法是一种基于贝叶斯定理的监督学习算法，主要用于分类问题，特别是在处理离散特征时。朴素贝叶斯算法是假设特征之间相互独立的，因此称之为“朴素”。尽管这个假设在现实中往往不成立，但它在实际应用中仍然表现出很好的性能，特别是在文本分类（如垃圾邮件检测、情感分析）等领域。

二、朴素贝叶斯概述

朴素贝叶斯是贝叶斯决策理论中的一部分，而贝叶斯决策理论是基于贝叶斯定理的一种统计方法，因此我会先为大家介绍何为“贝叶斯定理”。

2.1 贝叶斯定理

贝叶斯定理是概率论中的一个定理，它描述了在已知的一些条件下，某事件发生的概率。人对某一事件未来会发生的认知，大多取决于该事件或类似事件过去发生的频率。这就是贝叶斯定理的数学模型，它最早由数学家托马斯·贝叶斯提出。

贝叶斯定理的过程可以归纳为：“过去经验”加上“新的证据”得到“修正后的判断”。它提供了一种将新观察到的证据和已有的经验结合起来进行推断的客观方法。

在介绍贝叶斯定理前，先为大家引入先验概率、后验概率和条件概率的概念。
先验概率：是基于统计的概率，是基于以往历史经验和分析得到的结果，不需要依赖当前发生的条件。

条件概率：记事件A发生的概率为P(A)，事件B发生的概率为P(B)，则在事件B发生的前提下，事件A发生的概率即为条件概率，记为P(A|B)。

后验概率：则是从条件概率而来，由因推果，是基于当下发生了事件之后计算的概率，依赖于当前发生的条件。

贝叶斯公式：假设有随机事件A和B，则贝叶斯公式如下：

$P(A | B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B|A)}{P(B)}$

其中，事件A是要考察的目标事件，P(A)是事件A的初始概率，称为先验概率，它是根据一些先前的观测或者经验得到的概率。
B是新出现的一个事件，它会影响事件A。P(B)表示事件B发生的概率。
P(B|A)表示在事件A发生的条件下事件B发生的概率，称之为条件概率。
P(A|B)表示当事件B发生时事件A发生的概率（也是条件概率），它是我们要计算的后验概率，指在得到一些观测信息后某事件发生的概率。

因此，根据贝叶斯公式可知，先验概率一般是由以往的数据分析或统计得到的概率数据。后验概率是在某些条件下发生的概率，是在得到信息之后再重新加以修正的概率。也就是说，后验概率可以在先验概率的基础上进行修正并得到。

2.2 朴素贝叶斯

朴素贝叶斯是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法。在给定的训练数据集上，朴素贝叶斯学习每个特征与每个类别的概率关系，然后使用贝叶斯定理来预测新实例的类别。

特征条件假设：假设每个特征之间没有联系，给定训练数据集，其中每个样本x都包括n维特征，即 $x = (x_{1},x_{2},x_{3},...,x_{n})$ ;类标记集合含有k种类别，即 $y= (y_{1},y_{2},...,y_{k})$ 。

对于给定的新样本x，判断其属于哪个标记的类别，根据贝叶斯定理，可以得到x属于类别 $y_{k}$ 的概率 $P(y_{k}|x)$ ：

$P(y_{k}|x) = \frac{ P(y_{k})\cdot P(x|y_{k}) }{ \sum_{k}P(x|y_{k})\cdot P(y_{k})}$

后验概率最大的类别记为预测类别，即： $\arg maxP(y_{k}|x)$ 。

朴素贝叶斯算法对条件概率分布作出了独立性的假设，通俗地讲就是说假设各个维度的特征互相独立，在这个假设的前提上，条件概率可以转化为：

$P(x|y_{k}) = P( x_{1},x_{2},...,x_{n}|y_{k})=\prod_{i=1}^{n}P(x_{i}|y_{k})$

代入上面贝叶斯公式中，得到：

$P(y_{k}|x) = \frac{ P(y_{k})\cdot \prod_{i=1}^{n}P(x_{i}|y_{k}) }{ \sum_{k} P(y_{k}) \cdot \prod_{i=1}^{n}P(x_{i}|y_{k})}$

于是，朴素贝叶斯分类器可表示为：

$f(x) = \arg maxP(y_{k}|x) = \arg max \frac{ P(y_{k})\cdot \prod_{i=1}^{n}P(x_{i}|y_{k}) }{ \sum_{k} P(y_{k}) \cdot \prod_{i=1}^{n}P(x_{i}|y_{k})}$

因为对所有的，上式中的分母的值都是一样的，所以可以忽略分母部分，朴素贝叶斯分类器最终表示为：

$f(x) = \arg max P(y_{k})\cdot \prod_{i=1}^{n}P(x_{i}|y_{k})$

三、简单的案例实现

接下来是以python中sklearn库自带的乳腺癌数据集为例，分别GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernouliNB(伯努利朴素贝叶斯)3种分类器进行分类预测，并比较输出3种分类器预测的准确率优劣。

3.1 案例过程分析

3.1.1 获取数据集

从python中的sklearn库中导入自带的乳腺癌数据集;

# 从sklearn库中获取自带的乳腺癌数据集
from sklearn import datasets
cancers = datasets.load_breast_cancer()

3.1.2 数据处理

用X存放乳腺癌数据集的患者的具体信息，用Y存放该数据集的目标值（乳腺癌数据集的类别）；

#数据处理 划分特征向量和目标向量
X = cancers.data
Y = cancers.target
# 打印特征矩阵（属性）
# print(X.shape)
# 打印标签向量矩阵（分类）
# print(Y.shape)
# 描述数据集的详细信息
# print(cancers.DESCR)

3.1.3 划分训练集和测试集

在划分训练集和测试集时，调用sklearn库中的train_test_split函数来分割训练集和测试集；

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)