【文件属性】:
文件名称:叶子裁剪-人脸识别图像预处理技术
文件大小:4.91MB
文件格式:PDF
更新时间:2021-06-09 17:37:09
数据挖掘算法 Python
5.6 叶子裁剪
1.剪枝的原因和目的
解决决策树对训练样本的过拟合问题
2.决策树常用剪枝方法
预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)
3. 预剪枝:预剪枝是根据一些原则及早的停止树增长,如树的深度达到用户所要的深度、节点中样本
个数少于用户指定个数、不纯度指标下降的最大幅度小于用户指定的幅度等。
4. 后剪枝:通过在完全生长的树上剪去分枝实现的,通过删除节点的分支来剪去树节点,可以使用的
后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等
修剪方式有:1)用叶子节点来替换子树,叶节点的类别由子树下面的多类决定
2)用子树最常用的分支来替代子树
5.7 决策树算法 CART
参考:http://wenku.baidu.com/view/286c19dae009581b6bd9eb59.html
1.分类与会归树(calssification and regression tree,CART)是在给定输入随机变量 X 条件下输出随机
变量 Y 的条件概率分布的学习方法。CART 假设决策树是二叉树,内部结点特征的取值为‘是’和
‘否’。这样的决策树等同于递归地二分每个特征,将输入控件即特征空间划分为有限个单元,并在
这些单元上确定预测地概率分布。
2.决策树的生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用
GINI 指标(基尼指数)最小化准则进行特征选择,生成二叉树。
3.最小二乘回归树生成算法
已知 X,Y 分别为输入和输出变量,并且 Y 是连续变量
输入:训练数据集 D
输出:回归树 f(x)
在训练数据集所在的输入空
间中,递归地将每个区域划分为两
个子区域并决定每个子区域的输
出值,构建二叉决策树