数据挖掘（数据处理基础）

数据及数据类型：数据是数据库存储的基本对象，狭义的数据理解为数值，广义的数据理解为记录。数据的属性：标称（Nominal）、序数（Ordinal）、区间（Interval）和比率。标称的属性（只提供足够的信息以区分对象，例如甲乙丙）序数属性（提供足够的信息，区别对象的序，例如及格，不及格）区间属性（其属性的差值是有意义的，例如日期）比率属性（其值的差和比率均有意义，例如速率）

标称和序数属性：称为分类或者定性属性。区间和比率属性：称为数值或者定量属性

数据集：

数据集三个重要的特性：维度、稀疏性、分辨率

维度：代表了数据集中属性的个数，有低、中、高三种数据集维度，在面对高维度通常会碰到维灾难。这就引出了数据预处理中的重要技术维归约

稀疏性：有的数据集，有意义的数据非常少，对象在大部分的属性取值为0

分辨率：在不同的分辨率下，数据会得到不同的性质。例如：地址数据：国家-城市-街道-门牌号。不同的分辨率对应着不同的性质

数据集分类：记录数据（事务数据或购物篮数据：典型例子，超市零售数据。数据矩阵：类似二维表一个行表示一个数据对象，一个列表示数据的属性）

基于图形的数据（带权图就是一种最简单的图形数据）有序数据（时间数据、序列数据、时间序列数据、空间数据、流数据）

数据的统计特征：

数据的中心趋势度量和数据的离散程度度量

中心趋势度量：最常用最高效的是算术平均值（变形加权均值和截断均值），另外还包括众数（在集合中出现频率最高的值）、中位数（常用于倾斜的数据）、中列数（为最大和最小数的均值）

数据的离散程度度量：极差（最大数减去最小数）、方差以及四分位极差等

数据的预处理：

步骤：数据清理、数据集成、数据变换、数据规约、数据离散化

数据清理：（试图填充缺失值，去除噪声、识别离群点、纠正数据中的不一致值）

缺失值处理方法：忽略元组（缺少类标号处理）、忽略属性（一个属性的缺失值太多）、人工填写（缺失值较少的情况）还有就是自动填充缺少值（以一个全局的常量填充、该属性的平均值或者该属性的众数）

噪声数据平滑：分箱的方法（通过考察其邻居的值来平滑有序数值；一般步骤将数值排序，之后将数值分成若干相等的组，组中的数据采用平均值代替）。聚类的方法（可以很容易的去除离散点）还有就是回归的方法

数据集成：将两个或者多个数据源中的数据放在一个一致的数据存储设备中

数据变换：即将数据变成适合数据挖掘的格式（平滑数据：去噪声和离散点（方法：分箱、聚类、回归分析）、聚集（对数据进行汇总）、数据泛化（用高层数据代替底层数据）、数据规范化（将属性数据按照比例缩放）、属性构造（按照已经有的属性构造新的属性）、数据离散化（将连续数据变成离散数据））

其中:

数据规范化方法：最小最大规范化（x=(x-min)/(max-min)*(b-a)+a）将值转化到a-b区间。z-score规范化：z=(x-E)/S 其中E为平均值，S为标准差。小数定标规范化：x=x/(10^j).

数据离散化：分为有监督和无监督离散化两个大类。无监督离散化（等宽、等频和基于聚类分析的离散化方法）有监督离散化（基于熵的离散化方法：概括起来就是对于连续的属性，选择具有最小熵的结点作为分裂点，递归上述步骤，直到符合某种标准）

数据规约：（大意使用编码或者变换，达到数据压缩的效果）

维度规约和特征变换：（小波分析和主成分分析）

抽样：（有放回简单抽样、无放回简单抽样、层次抽样）概率的知识抽样可以近似表示整个数据集，达到以小见大的效果

特征选取：（从一组已知的特征中选取，一部分具有代表性的特征）主要方法：过滤的方法（在调用数据挖掘算法之前进行特征选取）封装的方法（把特征选取作为评价的一部分）嵌入的方法（特征选取作为数据挖掘算法的一部分存在）

下面介绍一种特征选取搜索策略：

逐步向前选择（从空属性集作为规约集的开始，确定原属性中最好的属性，并将它们添加到规约集中，在其后的每一次迭代中，都将剩下的原属性集中最好的添加到该集合）

逐步向后删除：由整个属性集开始，逐步向后删除最差的属性

决策树归纳方法：和构造决策树的过程类似

特征选取FCBF算法：

输入：训练数据集S（F1，F2，F3,.....,Fm,C）,阀值O

输出特征子集F<best>

For i=1 to m do

计算每个特征Fi与目标特征C之间的相关性Sim（Fi，C）若Sim(Fi,C)>=O,将Fi添加到F<list>

end for

将F<list>中的特征按照降序排列

for j=1 to m do

for i=j+1 to m do

计算两两特征的相似度，若计算出的特性相似度大于与目标特征的相似度，就将其从F<list>中除去，直到F<list>中所有的冗余特征都被除去

end for

其中变量x,y之间的互信息MI(x,y)可以按照下面公式计算：MI(x,y)=H(x)-H(x|y)=H(y)-H(y|x) H(x)为信息熵的计算公式

Sim(x,y)=2MI(x,y)/(H(x)+H(y))

相似性度量：

标称属性：相似度（相等为1，不相等为0）相异度（相等为0，不相等为1）

区间属性：相异度（d=|x-y|）相似度（s=1/(1+d) ）

序数属性：相异度（属性f有M个有序状态，将属性值x替换成相应的等级r，将相应的等级r做变换映射到区间【0,1】，之后可以采用任何一种距离公式计算差异程度）

比例属性：计算比例属性的方法：1:将比例属性当做区间属性来进行距离计算，2：将比例属性看做连续的序数属性进行处理3：利用变换将属性的值转化为间隔数值进行处理

对象之间的相似性度量：

数值属性相似性度量：1：距离度量（铭科夫斯基距离，马氏距离等）2：相似系数（余弦相似度、相关系数、雅阁比系数）

秒客网

数据挖掘（数据处理基础）

相关文章