机器学习第四章【决策树】学习记录：ID3练习题：给定如下一个训练集，计算并画出ID3决策树。

数据表如下图：

类1（p1）	类2（p2）
0.6429	0.3571

属性2	65	70	70	70	75	78	80	80	80	85	90	90	95	96
类别	1	1	1	2	1	1	2	1	1	2	2	1	2	1

属性3	真	真	真	真	真	真	假	假	假	假	假	假	假	假
类别	1	2	1	1	2	2	2	2	1	1	1	1	1	1

（1）以‘属性 1’ 划分得到三个子集：D1（属性1=A）；D2（属性1=B）；D3(属性1=C）

以‘属性 1’ 划分之后所获得的三个枝节点的信息熵为：

（2）对于以‘属性 2’ 划分得到子集，同理可求出：

（3）对于以‘属性 3’ 划分得到子集，同理可求出：

若不加处理直接对属性2进行划分，这样的决策树很明显不具有泛化能力，无法对新样本进行有效预测。所以考虑对属性2划分为3个子集： D1（60<x<=72）； D2（72<x<=84）； D1（84<x<=96）。

由此以‘属性 2’ 可求出：

显然，‘属性1’的信息增益最大，所以把它选为划分属性。下图给出了基于‘属性1’对根节点进行划分的结果，各分支结点的样例子集显示在结点中：

机器学习第四章【决策树】学习记录：ID3练习题：给定如下一个训练集，计算并画出ID3决策树。

所以综上分析决策树如下图所示：

秒客网