统计学习方法实现分类和类聚(二)-朴素贝叶斯方法
一、朴素贝叶斯方法介绍
朴素贝叶斯方法是一种基于概率的分类
方法。其基本思想是:对于一个以若干特征表示的待
分类样本,依次计算样本属于每个类别的概率,其中所属概率最大的类别作为分类结果输出。
二、贝叶斯方法
2.1 符号约定
贝叶斯方法确定类别即求满足$max[P(y_{i}|x)]$的$y_i$的取值,但是直接计算难度很大,所以引入贝叶斯公式计算该概率:
因为$x$的特征已经给定,所以$P(x)$是给定的固定值,那么求$P(y_{i}|x)$最大与$P(x|y_i)P(y_i)$最大等价。又因为$P(x|y_i)P(y_i)=P(x,y_i)$,即给定$x$和$y_i$求联合概率的大小,这在思维上是成立的,联合概率越大关联性越强,即判断出$x$与某一个$y_i$相匹配。
$P(y_i)$是先验概率
,这是在给定训练样本下计算得到的。$P(x|y_i)$的概率计算较为麻烦,因为每一类特征有很多取值,这样我们就面临组合爆炸
问题。例如:$x=(青年,中发,平底,花色)$,虽然$x$给定,但该特征组合的概率在众多组合之中计算得到是很麻烦的,所以该概率基本不可能获得。
2.2 独立性假设
由前面得知的$P(x|y_i)$基本不可能得到,因此为了解决该问题,我们引入独立性假设
。
假设各个特征是独立
的,但实际上各特征之间很难做到特征独立:
这样就变为在$y_i$情况下每个特征取值概率的累乘,这样就不存在组合,不存在组合爆炸问题,从而简化了问题。
三、朴素贝叶斯方法
引入独立性假设后的贝叶斯方法称作朴素贝叶斯方法:
这消除了特征取值的组合爆炸问题。
3.1 平滑
在实际问题中,因样本不足可能存在概率为零的问题,这样累乘结果为零,朴素贝叶斯方法再利用概率不能进行比较,因此平滑。
平滑的办法有很多种,这里教授介绍的是拉普拉斯平滑
:
- 假设每一种情况都至少出现一次,相当于样本数量增加了$S_k$个
其中$S_k$表示特征$A_k$的肯能取值,例如:年龄$A_k$的$S_k$为3,即:青年,中年,老年。$K$表示类别数,例如:$K=2$,即:男性,女性。
3.2 对数形式
因为实际问题中样本特征取值极其多,因此朴素贝叶斯方法中的累乘常取对数变为累加,这样避免了累乘情况下概率极其小的情况,方便比较运算。