数据挖掘——SVM和神经网络

SVM是最优秀、准确而健壮的算法之一，维度不敏感，可处理线性可分和线性不可分数据。分为SVC和SVR。

优势：分类性能好、稳定性高、算法更新快。

一般选择RBF作为核函数。

SVM分类决策中起决定作用的是支持向量。

关键优化参数：

C：惩罚系数，值越高，惩罚程度越大，误差容忍力越差。

Gamma：影响每个支持向量对应的高斯的作用范围，值越大，泛化性能越差。

限制：

计算的复杂性取决于支持向量的数目，大规模训练样本难以实现。

用SVM解决多分类问题存在困难。

神经网络是进行分布式并行信息处理的算法模型，依靠系统的复杂程度，通过调整内部大量节点之间相互相互连接的关系，达到处理信息的目的。

使用范围：只能预测二项式数据，数值型数据。

过程：复杂，输入层->隐藏层->输出层

参数：训练周期、学习速率、动量、衰减。

二者对比：二者都是“二标签”分类任务

神经网络：“黑匣子”，基于经验风险最小化，易陷入局部最优，适合大样本。

SVM：理论基础扎实，基于结构风险最小化，泛化能力较好，具有全局最优性，适合小样本。

秒客网