random_naive_bayes:朴素贝叶斯分类器随机集成的 Python 实现

时间:2024-07-07 03:34:29
【文件属性】:

文件名称:random_naive_bayes:朴素贝叶斯分类器随机集成的 Python 实现

文件大小:9KB

文件格式:ZIP

更新时间:2024-07-07 03:34:29

Python

概述 通过将使用随机特征的 boostrapped 朴素贝叶斯分类器组合成单个集成,可以提高朴素贝叶斯分类器的分类精度和概率估计的精度。 我对离散朴素贝叶斯集合的处理方法严格遵循 Breiman 随机森林 [1] 的一般思想。 每个基分类器都是通过 Scikit-Learn [2] 实现的离散朴素贝叶斯。 基本分类器在数据的自举样本和特征的随机子集上进行训练。 为了诱导多样性,连续变量被分箱成随机分区长度。 最大箱数被视为超参数。 我已经成功使用了 70 的 bin 大小,但是对于超过 50 的任意数量的 bin,结果可能非常相似(取决于数据的大小)。 具有如此大的 bin 大小的朴素贝叶斯分类器会导致过度拟合,但在集成中,这类似于随机森林使用未修剪的决策树。 最后,可以根据准确率、AUC 或指数损失选择随机朴素贝叶斯模型的超参数。 我尝试了对指数损失的适应,例如 Rudin [3]


【文件预览】:
random_naive_bayes-master
----random_nb.py(11KB)
----ranking_metrics.py(3KB)
----helper_functions.py(7KB)
----README.md(2KB)

网友评论