一、朴素贝叶斯方法介绍

朴素贝叶斯方法是一种基于概率的分类方法。其基本思想是:对于一个以若干特征表示的分类样本,依次计算样本属于每个类别的概率,其中所属概率最大的类别作为分类结果输出。

二、贝叶斯方法

2.1 符号约定

贝叶斯方法确定类别即求满足$max[P(y_{i}|x)]$的$y_i$的取值,但是直接计算难度很大,所以引入贝叶斯公式计算该概率:

因为$x$的特征已经给定,所以$P(x)$是给定的固定值,那么求$P(y_{i}|x)$最大与$P(x|y_i)P(y_i)$最大等价。又因为$P(x|y_i)P(y_i)=P(x,y_i)$,即给定$x$和$y_i$求联合概率的大小,这在思维上是成立的,联合概率越大关联性越强,即判断出$x$与某一个$y_i$相匹配。

$P(y_i)$是先验概率,这是在给定训练样本下计算得到的。$P(x|y_i)$的概率计算较为麻烦,因为每一类特征有很多取值,这样我们就面临组合爆炸问题。例如:$x=(青年,中发,平底,花色)$,虽然$x$给定,但该特征组合的概率在众多组合之中计算得到是很麻烦的,所以该概率基本不可能获得。

2.2 独立性假设

由前面得知的$P(x|y_i)$基本不可能得到,因此为了解决该问题,我们引入独立性假设

假设各个特征是独立的,但实际上各特征之间很难做到特征独立:

这样就变为在$y_i$情况下每个特征取值概率的累乘,这样就不存在组合,不存在组合爆炸问题,从而简化了问题。

三、朴素贝叶斯方法

引入独立性假设后的贝叶斯方法称作朴素贝叶斯方法:

这消除了特征取值的组合爆炸问题。

3.1 平滑

在实际问题中,因样本不足可能存在概率为零的问题,这样累乘结果为零,朴素贝叶斯方法再利用概率不能进行比较,因此平滑。

平滑的办法有很多种,这里教授介绍的是拉普拉斯平滑

  • 假设每一种情况都至少出现一次,相当于样本数量增加了$S_k$个

其中$S_k$表示特征$A_k$的肯能取值,例如:年龄$A_k$的$S_k$为3,即:青年,中年,老年。$K$表示类别数,例如:$K=2$,即:男性,女性。

3.2 对数形式

因为实际问题中样本特征取值极其多,因此朴素贝叶斯方法中的累乘常取对数变为累加,这样避免了累乘情况下概率极其小的情况,方便比较运算。