一、朴素贝叶斯方法介绍
朴素贝叶斯方法是一种基于概率的分类
方法。其基本思想是:对于一个以若干特征表示的待
分类样本,依次计算样本属于每个类别的概率,其中所属概率最大的类别作为分类结果输出。
二、贝叶斯方法
2.1 符号约定
贝叶斯方法确定类别即求满足max[P(yi∣x)]的yi的取值,但是直接计算难度很大,所以引入贝叶斯公式计算该概率:
P(yi∣x)=P(x)P(x∣yi)P(yi)
因为x的特征已经给定,所以P(x)是给定的固定值,那么求P(yi∣x)最大与P(x∣yi)P(yi)最大等价。又因为P(x∣yi)P(yi)=P(x,yi),即给定x和yi求联合概率的大小,这在思维上是成立的,联合概率越大关联性越强,即判断出x与某一个yi相匹配。
P(yi)是先验概率
,这是在给定训练样本下计算得到的。P(x∣yi)的概率计算较为麻烦,因为每一类特征有很多取值,这样我们就面临组合爆炸
问题。例如:x=(青年,中发,平底,花色),虽然x给定,但该特征组合的概率在众多组合之中计算得到是很麻烦的,所以该概率基本不可能获得。
2.2 独立性假设
由前面得知的P(x∣yi)基本不可能得到,因此为了解决该问题,我们引入独立性假设
。
假设各个特征是独立
的,但实际上各特征之间很难做到特征独立:
P(x∣yi)=P((x1,x2,...,xN)∣yi)=j=1∏NP(xj∣yi)
这样就变为在yi情况下每个特征取值概率的累乘,这样就不存在组合,不存在组合爆炸问题,从而简化了问题。
P(akj∣yi)=标记为类别yi的样本数类别yi的样本中特征Ak值为akj的样本数
三、朴素贝叶斯方法
引入独立性假设后的贝叶斯方法称作朴素贝叶斯方法:
P(x∣yi)=j=1∏NP(xj∣yi)⋅P(yi)
这消除了特征取值的组合爆炸问题。
3.1 平滑
在实际问题中,因样本不足可能存在概率为零的问题,这样累乘结果为零,朴素贝叶斯方法再利用概率不能进行比较,因此平滑。
平滑的办法有很多种,这里教授介绍的是拉普拉斯平滑
:
- 假设每一种情况都至少出现一次,相当于样本数量增加了Sk个
P(akj∣yi)=标记为类别yi的样本数+特征Ak的可能取值数Sk类别yi的样本中特征Ak值为akj的样本数+1
P(yi)=总样本数+类别数K属于类别yi的样本数+1
其中Sk表示特征Ak的肯能取值,例如:年龄Ak的Sk为3,即:青年,中年,老年。K表示类别数,例如:K=2,即:男性,女性。
3.2 对数形式
因为实际问题中样本特征取值极其多,因此朴素贝叶斯方法中的累乘常取对数变为累加,这样避免了累乘情况下概率极其小的情况,方便比较运算。