数据挖掘笔记——决策树

1.介绍

决策树是一种目标函数为离散值的学习方法(区别于回归)，学习到的函数可以用树形表示也可以使用if-then规则来增加可读性。

什么时候考虑使用决策树：(1)实例可以描述为属性-值对，即监督学习

(2)目标函数是离散值

（3）数据可能包含噪声和缺失值

决策树表示实例属性值上约束合取的析取，这句话比较难理解，可以看一下下面图中的例子：

数据挖掘笔记——决策树那么就有三个问题：(1)如何确定属性判断条件

(2)如何确定切分属性顺序

(3)什么时候停止节点的划分

1.1.如何确定属性判断条件

依赖于属性类型(标称顺序连续)和切分方式(二分类和多分类)，二分类与多分类的区别如下图：

数据挖掘笔记——决策树

1.2.如何确定切分属性顺序

首先先介绍一个概念：结点纯净度的度量，就是指一个结点相同类型的数据多则该节点较纯净。

数据挖掘笔记——决策树

如果将纯净度这一指标量化表示有三个度量标准：基尼系数、熵、误分类误差

(1)基尼系数

数据挖掘笔记——决策树

举个例子：

数据挖掘笔记——决策树

可以看出来，如果结点越纯净则基尼系数越大，因此找分类节点依据的属性时应当找分类后基尼系数小的属性，因为依该属性划分后节点更纯净。

(2)熵

熵表示数据的混乱程度，如果数据越不纯则熵越大。还是举个例子：

信息增益：是依据该属性划分后熵的下降差值(划分前的熵减去划分后的熵)，因此选择信息增益大的即熵下降最快的作为划分属性。

(3)误分类率

数据挖掘笔记——决策树

叶子节点的类标签由子树中的大多数类实例确定，剩下的就是所有分错的数据所占比率，举个例子：

数据挖掘笔记——决策树

从上面的例子可以看出来，误分类率越小越纯净，另外三个衡量指标的关系如下图所示：

数据挖掘笔记——决策树

1.3.什么时候停止节点的划分

如果每个节点的数据类别相同或相似就可以停止划分结点了，或者还有一些其他条件下面将谈到。

2.分类树

分类树具有构建简单、可以快速分类未知数据、易于解读和准确率较高的优点,例如ID3和C4.5两种分类树，前者使用信息增益后者使用信息增益率。但是分类树在实际应用中有三个问题：欠拟合与过拟合、缺失值、分类成本

2.1.欠拟合与过拟合

与其他机器学习算法一样，决策树也会出现欠拟合和过拟合情况，另外决策树采用的是贪心算法(每一步都达到当前最优)，很容易出现过拟合。另外过拟合有可能因为噪声数据，

如何解决过拟合问题：预剪枝和后剪枝

(1)预剪枝（早停止规则）

当每个结点中实例数少于用户定义的阈值；如果节点中实例的类分布具有一定的可信度(使用卡方检验)；节点的纯净度不再提升。

(2)后剪枝

后剪枝是自底向上的剪枝，如果修剪后泛化误差得到改善，则用叶节点替换子树。

2.2.缺失值问题

缺失值数据主要影响有三点：影响结点纯净度的度量；影响有缺失值实例的结点类别划分；影响有缺失值测试实例的分类

(1)结点纯净度的度量

先举个例子如下图所示

数据挖掘笔记——决策树

如图中例子所示，首先去除缺失值属性，其他不含缺失值实例按照正常计算信息增益，然后再乘以非缺失值所占比例即可

(2)节点类别划分

接上面的例子如下图：

数据挖掘笔记——决策树

之前不含缺失值的时候是数结点个数，且实例属性确定，因此分实例的时候是整个将其分过去的，但是如果此时我们不知道某实例该属性的取值，就可以按照已经分了的实例比率进行划分，例如上例中refund=yes的比例是3/9，那么第十条实例分到refund=yes的概率就是1/3，而本实例所属类别为yes，因此左结点的yes加上1/3

(3)测试实例的类别判断

数据挖掘笔记——决策树