实现C4.5算法

一、算法描述

统计好样本集S，属性集A，分别求出属性集中每个属性的信息增益率，选中增益率最大的属性P，假设P总有n种情况的取值（连续变量要离散化），那么分别统计好第i种情况时样本集Si和除去P的属性集Pi，生成相对应的子树。主要重点有：信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造（分治思想）等。

1）读取文件信息，统计数目

2）建立决策树

3）事后剪枝（采用悲观错误率估算）

4）输出决策树

5）移除决策时

vector<string> attributes; 总的属性列表，并不是属性集，我的属性集是用索引数组；

bool* isContinues;记录哪个变量是否为连续性变量

vector<string>* decisions;记录属性的取值情况

C4.5算法（数据挖掘经典分类算法）

把文件直接拖放到C4.5.exe上。

C4.5算法（数据挖掘经典分类算法）

animals.csv的运行结果

C4.5算法（数据挖掘经典分类算法）

credit.csv的运行结果

由于最近功课很多，时间不太够，所以只实现了C4.5算法。等考完试再把Ripper也写了吧，然后再交给老师您。

主要参考了

这个网站和老师的课件。

源代码、执行文件、文档下载地址： http://files.cnblogs.com/sandywong/C4_5.rar

转载于:https://www.cnblogs.com/sandywong/articles/2054517.html