零概率问题:在计算离散属性的概率时,如果它在训练样本集中没有出现过,会导致该离散属性的概率结果为 0
。这是不合理的,“不能因为一个事件没有观察到,就被认为该事件一定不可能发生”。
为了解决这个问题,法国数学家 拉普拉斯 最早提出用 加1
法来估计没有出现过的现象的概率。 他指出,当训练样本足够大时,每个离散属性 的计数加1
造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
于是,这个方法也被叫做加法平滑/拉普拉斯平滑(Additive/Laplace Smoothing)。具体如下:
式中, 表示所有属于 的训练样本中,属性值 的频率; 表示属于 的训练样本个数; 表示所有训练样本中,第 个属性 可以取的离散值的个数; 为平滑参数。
类 | 含义 |
---|---|
naive_bayes.BernoulliNB | 伯努利分布下的朴素贝叶斯 |
naive_bayes.GaussianNB | 高斯分布下的朴素贝叶斯 |
naive_bayes.MultinomialNB | 多项式分布下的朴素贝叶斯 |
naive_bayes.ComplementNB | 补充朴素贝叶斯 |
naive_bayes.CategoricalNB | 类别朴素贝叶斯 |
1 | from sklearn.naive_bayes import MultinomialNB,GaussianNB,BernoulliNB,ComplementNB,CategoricalNB |
待更
概率与统计——正态分布的共轭分布-CSDN博客
走进贝叶斯统计(一)—— 先验分布与后验分布 - 知乎 (zhihu.com)
走进贝叶斯统计(二)—— 共轭先验分布 - 知乎 (zhihu.com)