朴素贝叶斯
一、什么是朴素贝叶斯
相关名词
- 条件概率
- 贝叶斯准则
- 贝叶斯决策理论
- 极大似然估计
1.1 条件概率
在谈朴素贝叶斯之前,我们需要先回顾一下中学时候学的条件概率公式:
上述公式的意思是,在已知条件B的前提下,A事件的发生概率。大学时候上概率论,概率论老师举了个例子——假设甲小组有两 男两女,乙小组有一男两女,从甲乙小组随机抽选,已知从乙小组抽,那么抽中男生的概率多少?这个问题可以表示为P(男|乙),不难得出,P(男|乙)=1/3,同理,P(男|甲)=2/4。套用条件概率公式为:
P(男|乙) = P (男乙) / P(乙)
P(男乙):男 ∧ 乙,抽男的而且从乙小组抽,那么等于1 /7;
P(乙) : 抽中乙小组的概率,乙小组有三人,总共7人,所以等于3/7
1.2 贝叶斯准则
贝叶斯准则用的其实就是以前学过的贝叶斯公式:
套用上述例子,P(男|乙)交换条件就是P(乙|男),即已知抽男的,那么抽中乙组人员的概率多少。
1.3 贝叶斯决策理论
没想好怎么继续用上述例子,所以重新举个例子。假设直角坐标系中有若干个点,这些点可分为类别C1和类别C2。现在有个点D坐标为(x,y),P1为点D属于C1的概率,P2为点D属于C2的概率。
- 如果P1 > P2,那就属于C1
- 如果P1 < P2,那就属于C2
这就是贝叶斯决策理论,利用概率进行决策。当然这里只是简单介绍,更具体的内容请自行查阅资料。
1.4 朴素贝叶斯简介
了解了前提知识点之后就可以谈谈朴素贝叶斯了。朴素贝叶斯是贝叶斯决策的一部分,其核心思想就是选择具有最高概率的决策,而之所以称之为“朴素”,是因为整个形式化过程只做独立假设,也就是特征之间相互独立。
朴素贝叶斯的优势在于只需要根据很少的训练数据估计出必要的参数(变量的均值和方差),即在数据较少的情况下仍然有效,可以处理多类别问题,另外训练和预测的速度非常快。而朴素贝叶斯的缺点就是需要先验概率以及存在一定的错误率。
基于朴素贝叶斯的特性,朴素贝叶斯通常适合作为分类的初始解,以下应用场景非常适合使用朴素贝叶斯:
- 假设分布函数与数据匹配(然而实际中这很少见)
- 各种类型的区分度很高,模型复杂度不重要;
- 非常高维度的数据,模型复杂度不重要。
摘抄一下《机器学习实战》中朴素贝叶斯的一般过程:
- 收集数据:可以使用任何方法;
- 准备数据:需要数值型或者布尔型数据;
- 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好;
- 训练算法:计算不同的独立特征的条件概率;
- 测试算法:计算错误率;