数据挖掘之分类和预测

分类用于预测数据对象的离散类别，预测则用于预断欺诈检测等的方面。

具有代表性的分类的方法：决策树方法贝叶斯分类方法神经网络方法支持向量机方法关联分类的方法最后将讨论提高分类和预测期准确率的一般性的策略

分类的过程一般是有两个步骤组成的第一个步骤是模型建立阶段，目的是描述预先定义的数据类或者概念集的分类器。这一步中会使用分类算法分析已有数据来构造分类器。

第二步骤是使用第一步得到的分类器进行分类，从而评估分类器的预测的准确率

预测与分类不同的是对于需要预测的属性值是连续的，而且是有序的，分类所需要预测的属性值是无序的丽萨的，

5.3关于分类和预测的问题--数据预处理问题和分类方法的比较和评估的标准

预处理：数据清理相关分析数据转换（泛化或者是规范数据)

评估准确率的常用的技术：保持方法随机子抽样交叉验证的方法是基于给定数据的随机抽样的划分

分类的方法第一------决策树的分类

决策树分类器是非常流行的分类的方法是可以处理高维数据的。

属性选择度量是指的是决策树分类器的分裂的准则（也就是节点的分裂）选择的标准是要使得在每个非叶子节点进行属性的测试的时候，使得被测元祖的类别的信息是最大化的，保证非叶子节点到达各后代的叶子节点的平均路径是最短的，分类的速度是最快的。

三种属性选择的度量的方法：信息增益增益率 Gini指标

分析分类器识别不同类元组的情况的时候的有用的工具是成为混淆矩阵，此矩阵可以用于在决策树分类中的属性选择的度量中，判断选择合适的属性进行节点的分裂

一般三种属性选择度量的方法都能够返回一个较好的结果，但是各自选择倾向不同，信息增益倾向于多值数据，增益率克服了多值数据，但是倾向于不平衡的分裂，Gini系数指标偏向于多值属性，而且当类的数目很大时候会出现困难的。另外它还倾向于导致相等大小和相等纯度的划分，也就是说比较于倾向于一种均衡的划分

为什么在大规模的数据挖掘中决策树被广泛地应用呢？

它相对于其他分类方法有较快的学习速度

生成的决策树能能够很容易转换为简单于理解的分类规则

使用SQL语句对数据库进行访问

它与其他分类方法相比有着可比较的分类准确率。

秒客网