决策树 | 分裂算法:ID3,C4.5,CART-三. CART算法

时间:2024-03-15 09:04:40

1. Gini系数公式

CART算法

	采用Gini系数来衡量划分的有效性

G i n i = ∑ i = 1 n [ p i ∗ ( 1 − p i ) ] = 1 − ∑ i = 1 n p i 2 Gini = \sum_{i=1}^{n}[p_{i}*(1-p_{i})] =1-\sum_{i=1}^{n}p_{i}^{2} Gini=i=1n[pi(1pi)]=1i=1npi2

2. CART算法特点

  1. 选择gini增益最大的属性作为当前数据集的分割属性
  2. 可用于分类和回归两类问题
  3. CART构建是二叉树

3. CART回归树的分裂评价指标

MSE均方误差划分指标:

	样本越集中,值越小,划分越好

M S E = 1 n ∑ i = 1 n ( y i − y ˉ i ) 2 MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y}_{i})^{2} MSE=n1i=1n(yiyˉi)2

MAE绝对误差划分指标:
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}| MAE=n1i=1nyiy^i