数据挖掘--模型选择

本文转自：https://blog.csdn.net/qq_20800249/article/details/80046476

名称

假设

/关键

优缺点

模型

策略

算法

感知机

拉格朗日对偶

1.初值不同结果不同

2.无法处理非线性

3.对偶形式将内积存储（Gram矩阵），加速计算

数据挖掘--模型选择

误分类点总数最小

梯度下降

数据挖掘--模型选择

KNN

1.k值选择（交叉验证法）

2.距离度量

3.分类决策规则

1.对异常点不敏感

2.不具有显示学习过程（可解释行差）

3.适用于多分类问题

4.计算量大（占内存）

距离度量：p范数（L1、L2）

数据挖掘--模型选择

（各个坐标距离最大值）

决策规则：多数表决（=经验风险最小化）

数据挖掘--模型选择

1.计算与x最近的k个点（Nk）

2.分类规则（多数表决）

3.kd树（适用于训练实例远大于空间维数的搜素）

聚类分析

（无监督）

1.k值选择

2.相似度量（距离）

1.初值敏感

2.异常点敏感

3.kmeans适合球状

4.大数据集伸缩性好，高效，高斯分布效果好

质心：

数据挖掘--模型选择

MSE（均方差）：

数据挖掘--模型选择

K选择：SSE（和方差）

数据挖掘--模型选择

选择最小的k

K-means：

1.随机初始化k个质心

2.对所有样本计算x到k的距离，找最近的簇，添加类标记Ci；重新计算质心（均值）

3.重复直到中止（迭代次数、最小平方MSE、簇中心点变化率）

密度聚类、层次聚类

朴素贝叶斯

1.特征条件独立

2.贝叶斯定理

1.小规模表现良好，速度快，参数估计的个数锐减

2.在特征关联性较强的任务性能差

3.适用于多分类

极大似然估计：

数据挖掘--模型选择

贝叶斯估计

（λ=1 拉普拉斯平滑）：

数据挖掘--模型选择

1.学习输入输出联合概率分布

2.求出最大后验概率输出y

回归模型

1．正则化：

L1会引入稀疏性，而L2会充分利用更多的特征

2.LR回归：

1）假设特征与分类结果存在线性关系

2）使用sigmoid函数映射到0-1（非线性映射将远离分类面的点作用减弱）

LR：1适合分类概率的场景

2时间和内存需求高效（分布式数据、在线算法）

3 对于小噪声鲁棒

4.易欠拟合精度不高

5数据特征有缺失或者特征空间很大时表现效果不好

6.必须线性可分

最小二乘：

1.均值回归，异常点敏感，鲁棒性不高

2.存在最优解

LR回归（二项）：

数据挖掘--模型选择

对数几率：（概率->回归）

数据挖掘--模型选择

1.线性回归

数据挖掘--模型选择

2.岭回归

数据挖掘--模型选择

3.lasso回归

4.LR回归（极大似然估计，求极大，也可增加L1、L2正则项）

数据挖掘--模型选择

1.梯度下降法

2.拟牛顿法（二阶）

SVM

非线性映射

1.低泛化误差，易解释

2.只考虑支持向量的影响，对异常敏感，但也剔除冗余

3.大规模训练样本，耗内存占时间

4.多分类问题困难

核技巧：

1. 如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM

2. 如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel

3. 如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况

数据挖掘--模型选择

硬间隔（线性可分）：

数据挖掘--模型选择

软间隔（线性不可分）：

数据挖掘--模型选择

核技巧：

1.将原空间映射到新空间

2.新空间中线性分类

数据挖掘--模型选择

多项式核：

数据挖掘--模型选择

高斯核：

数据挖掘--模型选择

（最小间隔最大化）

拉格朗日对偶将minmax->maxmin

便有优化求导得到最优解

硬间隔：数据挖掘--模型选择

软间隔：数据挖掘--模型选择

核技巧：数据挖掘--模型选择

解出优化方程

得到相应参数

决策树

1.特征选择

2.决策树生成

3.决策树修剪

1. 数据准备简单，可解释性强

2. 能够同时处理数据型和常规型属性

3. 在相对短的时间内能够对大型数据源做出可行且效果良好的结果

4.适合处理缺失属性样本

5.易过拟合

特征准则—信息增益（ID3）：

（熵越大不确定性越大）

数据挖掘--模型选择

特征准则—信息增益比（C4.5）：

数据挖掘--模型选择

（比值解决了偏向取值较多的属性的问题）

特征准则—Gini（CART）：

（越小集合D不确定性越小）

数据挖掘--模型选择

决策树剪枝：

极小化决策树整体损失，递归回缩，若C(Ta)<=C(Tb)，剪枝

数据挖掘--模型选择

1.分类：递归选择最优特征

2.回归：最小二乘

1）选择最优切分变量和切分点

数据挖掘--模型选择

2）计算每个划分区域相应的输出值

数据挖掘--模型选择

提升树

采用加法模型与前向分步算法，同时基函数采用决策树算法，对待分类问题采用二叉分类树，对于回归问题采用二叉回归树

Adboost：

1.低泛化误差

2.易实现，分类准确率高，没太多参数可调

3.对异常点较敏感

GBDT：

1.可用于多有分类和回归（线性/非线性）

2.可筛选特征

3.解决过拟合问题

4.不好并行，复杂度高，不适合高维稀疏特征

5.需要特征归一化

加法模型：

数据挖掘--模型选择

前向分部算法:

经验风险最小化：

数据挖掘--模型选择

（分类0-1损失，

回归平方损失，拟合残差）

数据挖掘--模型选择

参数调优（GBDT）：

树个数、树深度、缩放因子、损失函数、数据采样比、特征采样比

Adboost：指数损失（e为误差率）

数据挖掘--模型选择（分类）

GBDT：对数、平方（残差），0-1，似然损失，CART树（回归），负梯度拟合（在上一轮分类器残差上训练，从而降低偏差）

数据挖掘--模型选择

构造特征：（每个类别一棵树）

新特征维度为叶子节点总数，样本落入每颗树的节点为1，其余为0，与RF结合输入效果较好

预测：每个树的预测值与缩放因子相乘求和。分类需转化为（0-1），

样本在每个树的输出f，计算概率

数据挖掘--模型选择

Xgboost：支持线性分类器；模型复杂度作为正则项加到优化目标中；使用二阶导（泰勒展开）；自动学习特征缺失样本的分裂向；特征粒度上的并行（特征存储排序）；列抽样（降低过拟合）；Shrinkage（缩减），相当于学习率

Adboost：

1.初始化权值分布

2.学习基本分类器Gm(x)

3.计算误差率

4.计算Gm系数α

5.更新权值分布（误差率越小树权值越大，误分类样本权值增加）

数据挖掘--模型选择

GBDT：

1.初始化弱学习器

数据挖掘--模型选择

2.计算负梯度

3.对残差拟合回归树

3.叶子节点拟合

数据挖掘--模型选择

4.得到回归树

数据挖掘--模型选择

集成模型

1.Bagging

2.随机特征

随机森林：

1.难以解释，平均很多树的结果。

2.构造过程长，可以采用多核并行

3.随机性：不易过拟合、较好的抗噪声

4.高维数据，无特征选择，离散连续均可

随机森林：

从d个特征中随机K个生成决策树，若K=d为原始决策树；若k=1为完全随机树，一般令K=logd

1.采样T个采样集（有放回），随机抽取含m个特征的采样集

2.基于每个采样集训练一个基学习器

3. 分类问题：由投票表决；回归问题：k个模型预测结果的均值

关于调参：手动搜索、网格搜索、随机搜索、贝叶斯方法（通过计算在已知数据的情况下，哪种模型的后验概率大即选择哪种模型）

更多案例请关注“思享会Club”公众号或者关注思享会博客：http://gkhelp.cn/

数据挖掘--模型选择

秒客网

数据挖掘--模型选择

相关文章